CUDA学习笔记
文章平均质量分 67
还是那片海
一个码农而已。
展开
-
Udacity cs344-Introduction to Parallel Programming学习笔记-第二单元
1、parallel communication patterns 并行通信模式Map:映射,在特定的位置读取和写入。Gather:收集,从多个不同的位置读入,写入一个位置。Scatter:分发,写入多个位置。第一个quiz答案:Scatter有点费解,一开始我以为是Map,后来有人提出一个这样的理解,貌似能说的通。先附在下方,留待日后回过头来理解。MA原创 2014-02-23 22:06:30 · 2512 阅读 · 0 评论 -
Udacity cs344-Introduction to Parallel Programming学习笔记-如何在VS环境下编译课程习题代码
Udacity的这个CUDA课程非常不错,提供了一个在线的编辑、编译、运行平台,我们可以直接在web上完成代码编辑、提交、查看运行结果,但是,有时候,面对比较复杂的问题,我们还是希望能够有一个本地的环境来执行这些代码,并且实现debug,调试代码,所以这篇博客主要是介绍如何在Visual Studio环境下完成代码的编译执行过程。下面以第一单元的彩色图转灰度图为例子来讲解,我这里是VS原创 2014-03-01 18:21:02 · 2169 阅读 · 1 评论 -
Udacity cs344-Introduction to Parallel Programming学习笔记-第一单元
开始学习CUDA编程,跟的是UDACITY的课程,这是他们的课程链接点击打开链接,这里把一些笔记心得记录下来,以作保存。1、Latency Vs Bandwidth在这一节讲到了latency,意思是“延迟”,可以简单理解为所花费的时间。还有Throughput,意思是“吞吐量”,可以简单理解为---人/小时,也即一小时几个人。这一节的测试,答案为:car:22.5;0.089原创 2014-02-22 22:10:30 · 3693 阅读 · 0 评论 -
win7+VS2010安装CUDA5.5(图文完整版)
NVIDIA于2006年推出CUDA(Compute Unified Devices Architecture计算统一设备架构),可以利用其推出的GPU进行通用计算,将并行计算从大型集群扩展到了普通显卡,使得用户只需要一台带有Geforce显卡的笔记本就能跑较大规模的并行处理程序。1、安装之前必须确认自己电脑的GPU支持CUDA。在设备管理器中找到显示适配器(Display adapt原创 2014-02-27 23:59:51 · 7721 阅读 · 3 评论 -
在VS2010下的CUDA程序中出现错误error : identifier “atomicAdd” is undefined
今天写代码的时候用到了原子操作,也就是atomicAdd操作,但是发现编译的时候会出现问题,报的错误是:error : identifier “atomicAdd” is undefined。经过一番查找之后,发现问题出在默认的设置里,计算能力是1.0,SM也是1.0,而这与本机的配置是不匹配的,修改方法只需: 右键解决方案属性-》配置属性-》CUDA C/C++-》Device原创 2014-04-02 21:54:04 · 7357 阅读 · 0 评论 -
calling a __host__ function("_wassert") from a __global__ function is not allowed错误
今天在调试代码的时候碰到一个错误:calling a __host__ function("_wassert") from a __global__ function is not allowed。经过查找后,发现问题出在默认原创 2014-04-17 17:30:11 · 4358 阅读 · 0 评论 -
Udacity cs344-Introduction to Parallel Programming学习笔记-第三单元
1、第一个quiz答案:6,21,问题很简单,数一下就好了。2、什么是“归约”操作归约操作有两个输入:1)输入对象的集合2)归约运算符:满足二元操作符、满足可结合性3、第二个quiz答案:multiply、minimum、logical or、bitwise and4、第三个quiz答案:2、3选项是对的。5、第四个quiz答案:(a+b原创 2014-02-27 21:54:41 · 3267 阅读 · 2 评论 -
Udacity cs344-Introduction to Parallel Programming学习笔记-第四单元
1、第一个quiz答案:work:o(n),step:o(logn)2、第二个quiz答案:large、expensive3、第三个quiz答案:scan4、压缩的步骤:(1)判定(2)输入扫描数组:判定为真,值为1,;判定为假,值为0(3)进行不包含扫描(4)如果值为真,以扫出数组中的地址分散到输出数组5、第四个quiz原创 2014-04-04 16:39:57 · 1949 阅读 · 0 评论