Parallel Computing
gavinwjin
Technology Changes Life
展开
-
工作总结@2010.3.16
在CUDA中,一般的数据复制到的显卡内存的部分,称为globalmemory。这些内存时没有cache的,而且,存取globalmemory所需要的时间(即latency)是非常长的,通常是数百个cycles.如果我们的程序只有一个thread,所以每次它读取globalmemory的内容,就要等到实际读取到数据、累加到sum之后,才能进行下一步,这就是为什么如果采取一个线原创 2010-03-17 09:07:00 · 476 阅读 · 0 评论 -
学习小结@10.3.15
(1) CUDA:可伸缩并行编程模型CUDA是一种并行编程模型和软件环境,包含3个重要的抽象概念:线程组层次结构(warp、block、grid)共享存储器、屏蔽同步。CUDA是Nvidia的GPGPU模型,在此架构下,一个程序分为两个部分:host端和device端。Host端是指在CPU上执行的部分,而device端则是在显示芯片上的部分。Device端的程序又称为“kernel原创 2010-03-15 20:28:00 · 569 阅读 · 0 评论 -
学习小结@10.3.17
GPU的基本执行过程目前支持的CUDA的Nvidia显示芯片,它的shader部分都是由多个multiprocessors组成的。每个multiprocessor里包含了八个streamprocessrs,其组成是四个四个一组,也就是说实际山是两组4D(double?)的SIMD处理器,此外,每个multiprocessor还具有8192个寄存器,16kb的sharemem原创 2010-03-17 19:36:00 · 559 阅读 · 0 评论