cuda
向前一一步走
热爱生活热爱技术
展开
-
cuda存储器类型
http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015482.htmlCUDA存储器类型:每个线程拥有自己的register and loacal memory;每个线程块拥有一块shared memory;所有线程都可以访问global memory;还有,可以被所有线程访问的只读存转载 2013-10-08 11:30:13 · 996 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第四节
http://www.ddj.com/architect/208401741转自:http://blog.csdn.net/gemin/article/details/4805634了解和使用共享内存(1)Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员。他在多个国家级的实验室进行大型并行运转载 2013-10-10 10:18:26 · 1153 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第一节
本文来自:http://www.ddj.com/architect/207200659 转自:http://blog.csdn.net/gemin/article/details/4794703 CUDA 让你可以一边使用熟悉的编程概念,一边开发可在GPU上运行的软件。Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Labo转载 2013-10-10 09:06:33 · 2317 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第13节
http://www.ddj.com/architect/218100902 转自:http://blog.csdn.net/gemin/article/details/4808056Rob FarberUsing texture memory in CUDARob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory转载 2013-10-10 20:57:53 · 1092 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第六节
http://www.ddj.com/architect/209601096转自:http://blog.csdn.net/gemin/article/details/4805761全局内存和CUDA RPOFILERRob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员。他在多个国家级的实验室进转载 2013-10-10 16:02:46 · 1011 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第九节
http://www.ddj.com/hpc-high-performance-computing/211800683转自:http://blog.csdn.net/gemin/article/details/4805941正文:Rob Farber使用CUDA拓展高等级语言Rob Farber 是西北太平洋国家实验室(Pacific Northwest National转载 2013-10-10 19:46:28 · 1224 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第十二节
http://www.ddj.com/architect/217500110 转自:http://blog.csdn.net/gemin/article/details/4807927Rob FarberCUDA 2.2改变数据移动样例 Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员。他在转载 2013-10-10 20:44:40 · 1168 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第14节
http://www.ddj.com/development-tools/220601124 转自:http://blog.csdn.net/gemin/article/details/4808305Rob FarberDebugging CUDA and using CUDA-GDBRob Farber 是西北太平洋国家实验室(Pacific Northwest Nation转载 2013-10-10 20:59:57 · 1096 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第十一节
http://www.ddj.com/hpc-high-performance-computing/215900921转自:http://blog.csdn.net/gemin/article/details/4807146Rob Farber再次讨论CUDA内存空间Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Labo转载 2013-10-10 20:18:48 · 1089 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第五节
http://www.ddj.com/hpc-high-performance-computing/208801731 转自:http://blog.csdn.net/gemin/article/details/4805686了解和使用共享内存(2)Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人转载 2013-10-10 15:39:37 · 898 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第七节
http://www.ddj.com/hpc-high-performance-computing/210102115 转自:http://blog.csdn.net/gemin/article/details/4805851使用下一代CUDA硬件,快乐加速度Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的转载 2013-10-10 16:18:01 · 1290 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第八节
http://www.ddj.com/architect/210602684 转自:http://blog.csdn.net/gemin/article/details/4805894Rob Farber利用CUDA函数库Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员。他在多个国家级的实验转载 2013-10-10 19:36:16 · 1382 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第十节
http://www.ddj.com/architect/212903437转自:http://blog.csdn.net/gemin/article/details/4806140正文:Rob FarberCUDPP, 强大的数据平行CUDA库Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科转载 2013-10-10 19:52:22 · 940 阅读 · 0 评论 -
cuda图像拉伸
这个是练习使用纹理内存的,CUDA SDK中有个差不多的例子,叫simpleTexture,对图像进行旋转。拉伸更简单一些,只要算好了纹理坐标,直接读取就可以了。下面是设备端代码 resizepic.cu ,只是用下标除以大小,获取它的标准化纹理坐标,由于使用的是CUDA数组,所以会进行线性滤波,因此生成的图像比较平滑,没有马赛克#ifndef _RESIZEPIC_KERNEL_H_转载 2013-10-11 15:27:35 · 1646 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第三节
本文来自:http://www.ddj.com/hpc-high-performance-computing/207603131 转自:http://blog.csdn.net/gemin/article/details/4805366错误处理和全局内存性能局限Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laborator转载 2013-10-10 09:58:28 · 825 阅读 · 0 评论 -
CUDA, 用于大量数据的超级运算:第二节
本文来自:http://www.ddj.com/hpc-high-performance-computing/207402986 转自:http://blog.csdn.net/gemin/article/details/4794769第一个内核Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员。转载 2013-10-10 09:35:40 · 1231 阅读 · 0 评论 -
cuda函数前缀与存储器前缀讨论
转自:http://space.itpub.net/?uid-23172605-action-viewspace-itemid-627164在CUDA C语言对C语言的扩展之一就是加入了一些函数前缀和存储器前缀,它们是:函数前缀:__device__ , __global__, __host__存储器类型前缀:__device__, __shared__,转载 2013-10-08 16:24:10 · 704 阅读 · 0 评论 -
线性内存分配
http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015554.html概述:线性存储器可以通过cudaMalloc()、cudaMallocPitch()和cudaMalloc3D()分配1、1D线性内存分配1 cudaMalloc(void**,int) //在设备端分配内存2 cudaMemc转载 2013-10-08 11:59:00 · 1045 阅读 · 0 评论 -
cuda统计时间的三种方式
转载:http://blog.csdn.net/jdhanhua/article/details/4843653使用cutil.h中的函数unsigned int timer=0;//创建计时器cutCreateTimer(&timer);//开始计时cutStartTimer(timer);{ //统计的代码段 …………}//停止计时cut转载 2013-10-08 14:52:38 · 3353 阅读 · 0 评论 -
cuda一些注意的地方
1.在用vs运行cuda的一些例子时,在编译阶段会报出很多警告: warning C4819 ...... 解决这个警告的方法是打开出现warning的文件,Ctrl+A全选,然后在文件菜单:file->Advanced save options,在弹出的选项中选择新的编码方式为:UNICODE- codepage 1200 ,点确定后重新编译。 为什么会转载 2013-10-08 15:23:40 · 931 阅读 · 0 评论 -
cuda纹理内存
http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015755.html1、概述 纹理存储器中的数据以一维、二维或者三维数组的形式存储在显存中,可以通过缓存加速访问,并且可以声明大小比常数存储器要大的多。 在kernel中访问纹理存储器的操作称为纹理拾取(texture fetching)。将显存中的数转载 2013-10-08 12:10:00 · 678 阅读 · 0 评论 -
cuda数组内存分配
http://www.cnblogs.com/traceorigin/archive/2013/04/12/3016540.htmlcuda内存分配真是乱啊,这次总结一下数组的分配。概述:数组分配可以通过cudaMallocArray()和cudaMalloc3DArray()1、cudaMallocArray()cudaError_t cudaMalloc转载 2013-10-08 12:13:02 · 1083 阅读 · 0 评论 -
CUDA内存拷贝
http://www.cnblogs.com/traceorigin/archive/2013/04/12/3016568.htmlCUDA内存拷贝1、cudaMemcpy() cudaMalloc() //线性内存拷贝1 //线性内存拷贝2 cudaMalloc((void**)&dev_A, data_size);3 cudaMemcpy(dev_A, h转载 2013-10-08 12:23:17 · 785 阅读 · 0 评论 -
cuda的初始化
http://www.cnblogs.com/dflower/archive/2009/10/16/1584827.html 首先介绍一下开发环境,Visual Studio 2008 + CUDA Wizard for Visual Studio. 确保显卡支持CUDA(GeForce 8系列之后,否则只能用模拟模式)并安装CUDA DDK及CUDA Toolkit。转载 2013-10-08 14:44:43 · 976 阅读 · 0 评论 -
cuda编程
http://www.cnblogs.com/stewart/archive/2013/01/05/2846860.html目录:1.什么是CUDA2.为什么要用到CUDA3.CUDA环境搭建4.第一个CUDA程序5. CUDA编程5.1. 基本概念5.2. 线程层次结构5.3. 存储器层次结构5.4. 运行时转载 2013-10-08 12:25:50 · 1745 阅读 · 0 评论 -
理解cuda
1. 理解GPU为了提升运算能力,大家更喜欢用 “更多的、简单的计算单元”CPU解决的问题是Latency,每个任务最短能在多长时间内完成GPU解决的是ThroughPut,每个单位时间能解决多少任务GPU擅长高效的并发并行的执行大量的线程2. CUDA计算模型3. 典型的GPU程序CPU为GPU分配内存空间 CUDA MALLOCCPU拷贝输入数据 C转载 2013-10-08 15:12:33 · 699 阅读 · 0 评论 -
cuda 笔记
CPU代码作用:在kernel启动前进行数据准备和设备初始化的工作,以及在kernel之间进行的一些串行运算。理想状况下 ,CPU串行代码的作用只是清理上一个kernel函数,并启动下一个kernel函数。 CUDA并行计算函数kernel:它是整个CUDA程序中的一个可以被并行执行的步骤。 kernel函数中存在两个层面的并行:Grid中的block间并行转载 2013-10-08 15:50:42 · 764 阅读 · 0 评论 -
一维矩阵的加
转载连接:点击打开链接//实现一个一维1*16的小矩阵的加法。 //矩阵大小:1*16 //分配一个block,共有16个线程并发。 #include #include #include #include #include #define VEC_SIZE 16//kernel function __global__ void vecAdd(转载 2013-10-08 16:34:02 · 689 阅读 · 0 评论 -
深入浅出谈cuda
深入浅出谈CUDA2009-2-5 作者: he21he21 来源: he21he21关键字: CUDA NVIDIA CUDA是什么?能吃吗? 编者注:NVIDIA的GeFoce8800GTX发布后,它的通用计算架构CUDA经过一年多的推广后,现在已经在有相当多的论文发表,在商业应用软件等方面也初步出现了视频编解码、金融、地质勘探、科学计算等领域转载 2013-10-08 16:46:32 · 1071 阅读 · 0 评论 -
cuda图像拉伸
这个是练习使用纹理内存的,CUDA SDK中有个差不多的例子,叫simpleTexture,对图像进行旋转。拉伸更简单一些,只要算好了纹理坐标,直接读取就可以了。下面是设备端代码 resizepic.cu ,只是用下标除以大小,获取它的标准化纹理坐标,由于使用的是CUDA数组,所以会进行线性滤波,因此生成的图像比较平滑,没有马赛克#ifndef _RESIZEPIC_KERNEL_H_转载 2013-10-11 15:28:09 · 1036 阅读 · 0 评论