GPU编程学之初
文章平均质量分 92
hdanbang
这个作者很懒,什么都没留下…
展开
-
GPU通用计算调研报告
摘要:NVIDIA公司在1999年发布GeForce256时首先提出GPU(图形处理器)的概念,随后大量复杂的应用需求促使整个产业蓬勃发展至今。GPU在这十多年的演变过程中,我们看到GPU从最初帮助CPU分担几何吞吐量,到Shader(着色器)单元初具规模,然后出现Shader单元可编程性,到今天GPU通用计算领域蓬勃发展这一清晰轨迹。本报告首先根据搜集到的资料记录GPU通用计算的发展过程中硬件和转载 2015-11-24 11:23:11 · 1751 阅读 · 0 评论 -
关于CUFFT
我们知道,程序在首次执行调用GPU函数时,会有一个初始化的过程。该初始化过程有很大的开销,不应被计入实际执行时间。然而我们发现,在调用CUFFT库的时候,第一次生成plan handle 也会有很大的开销:void main(){ int n = 100; float2 *data_h = new float2[n]; for (int i=0; i<n; ++i) { dat转载 2015-07-23 20:49:59 · 3154 阅读 · 0 评论 -
CUDA快速傅里叶变换(cuFFT)阅读笔记(一)
CUDA为开发人员提供了多种库,每一类库针对某一特定领域的应用,CUFFT库则是CUDA中专门用于进行傅里叶变换的函数库,这一系列的文章是博主近一段时间对cuFFT库的学习总结,主要内容是文档的译文,其间夹杂一些博主自己的理解。初学CUDA,理解有误之处在所难免,阅读本篇文章的读者如若发现请不吝指正。1. 简介 cuFFT是的全称是CUDA Fast Fourier T转载 2015-07-23 21:11:28 · 4253 阅读 · 0 评论 -
CUFFT中FFT点数对FFT性能的影响测试
基2FFT比非基2FFT的运行速度要快,在NVIDIA GPU设备上使用FFT的时候也是尽量使用基2FFT,因为本身使用GPU就是为了追求快速计算。测试了下一个二维复数矩阵在基2FFT和非基2FFT的性能差别(二维矩阵中的一个维度进行FFT,用到了batch)。从我测试的结果来看,基2FFT比非基2FFT快5倍。测试的数据尺寸:基2FFT:512×16384,非基2FFT:428×16384,测试转载 2015-07-23 20:54:59 · 3392 阅读 · 0 评论 -
怎一个乱字了得 深度了解BayTrail家族
毫无疑问,Windows 8.1平板的迅速崛起与普及“BayTrail”的耕耘密不可分。而BayTrail却是英特尔史上最“混乱”的移动平台之一,它旗下包含BayTrail-T、M两大系列,还能同时支持Windows 8.1和Android系统。为了让大家深度了解BayTrail家族背后的“秘史”,我们请到了伟彦品牌联合创始人周永先生为我们解答本章节的内容。被平板淘汰的BayTrail-M转载 2015-07-09 20:09:56 · 2123 阅读 · 0 评论 -
OpenCL矩阵转置
介绍矩阵转置,主要的技巧还是利用好local memory ,防止local memory,以及glabol memory的读取尽量是合并读写。完整代码一:main.cpp代码[cpp] view plaincopyprint?#include #include #include #includ转载 2015-06-11 22:52:51 · 1001 阅读 · 0 评论 -
CUDA存储器模型概述
CUDA存储器模型除了执行模型以外,CUDA也规定了存储器模型(如图2所示)和一系列用于主控CPU与GPU间通信的不同地址空间。图中红色的区域表示GPU片内的高速存储器,橙色区域表示DRAM中的的地址空间。图2 CUDA存储器模型首先,是最底层的寄存器(register,REG)。对每个线程来说,寄存器都是私有的--这与CPU中一样。如果寄存器被消耗完,数据将被存储在本地存转载 2015-05-03 11:41:58 · 1165 阅读 · 0 评论 -
CUDA存储器模型
除了编程模型和执行模型,CUDA也规定了存储器模型,如下图所示: 每一个线程拥有自己的私有存储器,每一个线程块拥有一块共享存储器(Shared memory);最后,grid中所有的线程都可以访问同一块全局存储器(global memory)。除此之外,还有两种可以被所有线程访问的只读存储器:常数存储器(constant memory)和纹理存储器(Text转载 2015-05-03 11:30:04 · 481 阅读 · 0 评论 -
CUDA学习笔记之 CUDA存储器模型
CUDA存储器模型:GPU片内:register,shared memory;板载显存:local memory,constant memory, texture memory, texture memory,global memory;host 内存: host memory, pinned memory. register: 访问延迟极低;转载 2015-05-03 11:39:59 · 438 阅读 · 0 评论 -
Maximizing Shared Memory Bandwidth on NVIDIA Kepler GPUs
Shared Memory ConfigurationsOn NVIDIA Kepler (Compute 3.x) GPUs, shared memory has 32 banks, with eachbank having a bandwidth of 64-bits per clock cycle. On Fermi GPUs (Compute 2.x)shared memory als转载 2015-05-08 16:56:38 · 648 阅读 · 0 评论 -
Windows7 32位机上,OpenCV中配置GPU操作步骤 .
1、 查看本机配置,查看显卡类型是否支持NVIDIA GPU,本机显卡为NVIDIA GeForce 8400 GS;2、 从http://www.nvidia.cn/Download/index.aspx?lang=cn下载最新驱动并安装;3、 从https://developer.nvidia.com/cuda-toolkit根据本机类型下载相应最新版的CUDA Toolkit5转载 2015-03-18 16:53:51 · 653 阅读 · 0 评论 -
高通狂吹新GPU:赶超桌面显卡
Google I/O开发者大会即将召开,而这不仅仅是Google的盛宴,更是合作伙伴们展示自己的舞台。高通就已经坐不住了,率先站出来,开始大力宣传自己的下一代移动GPU Adreno 420。Adreno 420是高通下一代移动GPU的第一名成员,已经用于骁龙805,三星Galaxy S5 Broadband LTE-A则是第一款使用它们的手机。骁龙805是高通最后一款32位高端移转载 2015-12-06 19:39:11 · 626 阅读 · 0 评论