NVIDIA CUDA
文章平均质量分 72
无心人_过过小日子
魔都一民工
展开
-
终于安装完CUDA开发(硬件)平台了
看了2个月资料并通过在EMU下运行验证了一些sample后,终于下决心把家里04年买的老爷机器升级换代了. 主角:显卡用的是GTX260+,216个SP,896M显存. 升级理由: ...... , 不用多说了吧.呵呵.配角: MCP78V主板. 升级理由: 原主板没有PCI-E x 16接口, 更不用说2.0了. 主板上还集成了一块GF8100芯片, 16个SP,也支持C原创 2009-03-27 10:27:00 · 2249 阅读 · 7 评论 -
CUDA上add.f32指令的执行周期到底是多少?
这两天,受网友cuda2010的提醒,发现了一个令人迷惑的问题,即CUDA上add.f32指令的执行周期到底是多少.从cuda手册以及各类分析文章上说,cuda上的单精度浮点加法指令的执行周期是4周期. 即如果程序都是串行执行单精度浮点加法计算的话,性能应该是频率/4fps. 为验证上面的认识是否正确,尝试运行了一个简单的程序,发现结果并非如此.下面是本次试验的情况. 试验原创 2010-04-04 12:00:00 · 2591 阅读 · 1 评论 -
cuda的教育意义之我见
在没有cuda前,因为自己的兴趣,看了不少并行算法,"高级"计算机结构方面的书和资料.但一直没有可使用的硬件环境,只能画饼充饥,锻炼自己的想象能力. 从08年底,偶然接触到cuda后,发现这个平台是如此廉价.于是立马花了1300多搞了块260+的卡,就算为支持PCI-E 2.0而换掉老爷主板(当然,连带着cpu,内存也被逼换掉了),连卡一共也就2300多大元. 从此以后,在这个新的原创 2010-04-03 09:48:00 · 990 阅读 · 5 评论 -
CUDA上add.f32指令的执行周期到底是多少?(续)
前文提及,通过试验表明,在130M显卡上,单精度浮点加法计算的串行执行要每指令20个时钟周期.与cuda手册上提及的4周期差距甚大.(试验结果数据:频率/实测性能=1.5/0.0745679=20.116) 曾考虑到过,现代cpu其实都是以流水线方式处理每一条指令的(取指,译吗,计算,保存结果等等)。进入流水线的前几条指令可能因为要在流水线中按脉冲流动,消耗时间会较长。但是一旦启动后,原创 2010-04-05 00:28:00 · 2054 阅读 · 2 评论 -
通过SDK 3.0看fermi的软件(cuda)架构的变化
今天总算读到了sdk 3.0的编程手册,仔细读来还是有不少失望的地方。 1)没有看到有函数指针的可能,而这是原来最希望新加的功能。到底有没有,要等读到 ptx 2.0手册了。但看来可能性不大。 *粗读过ptx 2.0手册了,确实没有,而且明确说,以后也不大会有了。 2)全局mem访问还是要注意对齐,当然限制条件是放宽很多了,只要从128字节整数倍开始的连续128字节就可以了原创 2010-03-21 22:58:00 · 1431 阅读 · 0 评论 -
对__threadfence的一点理解
一直没搞清楚,cuda 2.2版增加的__threadfence到底有何作用,直到今天看到sdk 3.0手册中的下面例子才恍然大悟.(中文为我的理解,嘿嘿) 一个求和的例子:__device__ unsigned int count = 0;// 统计有几个block结束的变量__shared__ bool isLastBlockDone; // 第一轮(多block)计算是否结束__g原创 2010-03-21 22:20:00 · 5683 阅读 · 6 评论 -
cuda的sdk sample中的一个低级错误
存在错误的程序是sample中的scanLargeArray,在指出具体错误之前,让我们先看一下这个程序的运行结果吧.我的本本是130M,运行结果如下: Running parallel prefix sum (prescan) of 1000000 elementsThis version is work efficient (O(n) adds)and has very few sha原创 2009-11-28 23:39:00 · 2142 阅读 · 4 评论 -
OPENCL带来了些什么?
OPENCL的SDK现在还没有公开,但总算有相对完整的手册了,可以具体看到OPENCL将给我们带来些什么功能,而不只是听厂家的宣传。 好不容易看完了300多页的手册,多少有些失望,原来以为会有对未来构架的突破性的定义,但实际看到的更多是现有各厂家的构架的一个混合体。不过,OPENCL能尽可能把现有的不同的GPU构架统一到一个平台下已经算不容易了。下面,就让我们看看OPENCL中的一些特点,原创 2009-04-27 23:07:00 · 2568 阅读 · 2 评论 -
开始有CUDA 2.2 Beta版了!
从CUDA英文官方网站上看到以下信息: CUDA 2.2 Beta is now available to registered CUDA Developers. Sign up here to get access. 可惜,还不是正式发布。呵呵。 由于没有注册成开发者,只搞到了一份编程指南,发现其中还是有不少新鲜功能的: 最好新功能的就是kernel可以访问"不可原创 2009-04-03 12:59:00 · 931 阅读 · 0 评论 -
使用CUDA驱动API的简单例子
花了两个晚上,搞了一个使用CUDA驱动API的简单例子.可以从这个例子出发,修改出你想要的程序.例子的功能很简单,就是Hello CUDA!(被我改成了New CUDA!呵呵).好了,废话少说,下面就是说明和代码.1)原程序由两部分组成:a)由kernel.cu编译成的kernel.cubin.我用的是sdk 3.0.因此,cubin被编译成为了elf文件格式.不过,没关系,在程序执行时照样可原创 2010-04-09 22:39:00 · 5693 阅读 · 4 评论