GPU/CUDA/OpenCL
文章平均质量分 73
iJuliet
这个作者很懒,什么都没留下…
展开
-
大话BSGP: Bulk-Synchronous GPU Programming
这是周昆老师与侯启明老师一起做地工作,2008 SIGGRAPH,学习~~~关键是思想,好不好,为什么,怎么样呢?周昆老师的主页是:http://www.kunzhou.net/ 了解BSGP更多详细信息。 1. BSGP简介BSGP是一种新的GPU编程语言,基于BSP(Bulk synchronous parallel)模型。看起来就像是顺序的C程序,程序员只需敲很少的并行代码,易读原创 2008-12-18 23:10:00 · 7780 阅读 · 3 评论 -
《GPU高性能运算之CUDA》勘误表
这是我们《GPU高性能运算之CUDA》一书的勘误表,多谢读者朋友的反馈与分享~~ Normal 0 7.8 磅 0 2 false false false MicrosoftI原创 2009-11-20 14:03:00 · 6316 阅读 · 1 评论 -
关于NVIDIA OpenCL/CUDA Best Practice里一段话的思考
The compiler replaces a branch instruction with predicated instructions only if the number of instructions controlled by the branch condition is less than or equal to a certain threshold: If t原创 2009-10-06 22:31:00 · 4345 阅读 · 1 评论 -
话说OpenCL(一)
今天扫了一下OpenCL,大概印象是这样的(这里不在语法细节上纠结,只在大面儿上谈一下):OpenCL(Open Compute Language),异构系统(CPU+GPU)并行编程的一个开放标准,接口比较底层,可视为NV自家API向开放标准的一次升级或叫过渡。主要元素有:kernel程序可以在运行时编译(不像CUDA driver API那样由NVCC.exe预编译成ptx/cubin再原创 2009-10-04 01:29:00 · 8953 阅读 · 2 评论 -
Stream && Event
Stream Tips:1. for() cudaStreamCreate()2. cudaMallocHost()3. for() cudaMemcpyAsync(,,,stream[i]); for() kernel>>()for() cudaMemcpyAsync(,,,stream[i]);cudaThreadSynchr原创 2009-08-24 18:07:00 · 4040 阅读 · 0 评论 -
CUDA通信机制
CUDA体系架构支持怎么样的通信方法呢?往下看喽@_@1. __syncthreads()Block内的线程同步。Block内所有线程都执行到这一位置(BAR指令),先到的要等后来的,到齐了后再继续后面的任务。执行结果对block内所有线程可见2. Memory Fencel __threadfence()Grid内的线程同步。保证该语句前的,gr原创 2009-08-25 21:57:00 · 5342 阅读 · 3 评论 -
Pinned Memory: portable, mapped, write-combined
1. Pinned memoryBefore CUDA2.2: the benefits of pinned memory were realized only on the CPU thread (or, if using the driver API, the CUDA context) in which the memory was allocated. Pinned原创 2009-08-25 10:23:00 · 5316 阅读 · 2 评论 -
扩展CUDA SDK 2.3 の convolutionSeparable
SDK2.3的convolutionSeparable示例,纯代码,零注释,忒血汗。。汗了半小时才o掉,帖出来供大家参考。离散数据的二维卷积: 其中,Ar、Ac分别是A的行数与列数。应用很多,比如对图像做高斯平滑(去噪),拿高斯核与输入图像做卷积。convolutionSeparable之所以”Separable”,是因为它在row、col两个维上分别做了卷积操作。在此先奉上CPU原创 2009-08-03 21:07:00 · 4852 阅读 · 3 评论 -
非规则计算中的局部性和并行性
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <! /* Styl原创 2009-04-09 12:28:00 · 3783 阅读 · 0 评论 -
CPU上0.0022S的九宫算法,GPU能更快么?
欢迎大家下载我上传的资源: (内附源码、详细代码注释、测试数据) 源码1:普通IDA*算法实现八数码源码2:变相IDA*算法实现八数码,这个我得好好说道说道。 一大清早地,跟电脑前发愣,突然想知道8/15数码的GPU速度会怎样,毕竟这可是搜索界的极品问题了。先跟网上狂搜一把,“2005年百度之星”的决赛题目,就这个九宫问题,且看冠军得主楼大牛如何在0.0022s的时间内搞定它(请原创 2009-03-17 23:01:00 · 2481 阅读 · 2 评论 -
BFS_CUDA
Algorithm 1 CUDA_BFS(Graph G(V, E), Source Vertex S){1. Create vertex array Va from all vertices in G(V, E);2. Create edge array Ea from all edges in G(V, E);3. Create Frontier array Fa, visit翻译 2009-03-08 17:32:00 · 2951 阅读 · 2 评论 -
OpenCL Programming Template -- Juliet
很久了,CSDN博客图片一直处于和谐态,灰常影响博友心情=_=!!! 这里(http://download.csdn.net/source/2030769)有OpenCL开发流程,Platforms/Devices/Context概念澄清的图解,需要的朋友可以下载看看,免积分。本篇我写OCL程序的一个模板,拿出来晒晒太阳,大家喜欢了可以拿去用。CUDA与OpenCL的裙带关系矣然大白于天下原创 2010-01-28 17:25:00 · 5330 阅读 · 3 评论