CUDA
文章平均质量分 79
bestabou_cv
Racoon city is dangerous!
展开
-
#pragma unroll
CUDA在给出的实例程序中出现了不少次的 #prama unroll 的用法,搜集到资料整理如下:1. #pragma unroll 用法 #pragma宏命令主要是改变编译器的编译行为,其他的参数网上资料比较多,我只想简单说下#pragma unroll的用法,因为网上的资料比较少,而且说的比较笼统,请看下面的一段代码int main(){ int a[100]原创 2015-03-29 11:18:31 · 5928 阅读 · 0 评论 -
template non-type parameter 非类型参数
CUDA v6.5 sample->0_simple->matrixMul 中看到语法:template __global__ voidmatrixMulCUDA(float *C, float *A, float *B, int wA, int wB){ // function body}对于用法:template 是很常见的,但对于用法:templa原创 2015-03-31 16:44:56 · 1227 阅读 · 0 评论 -
float 在 CUDA
https://msdn.microsoft.com/zh-cn/library/hd7199ke.aspx浮点数使用 IEEE(电气和电子工程师协会)格式。 浮点类型的单精度值具有 4 个字节,包括一个符号位、一个 8 位 excess-127 二进制指数和一个 23 位尾数。 尾数表示一个介于 1.0 和 2.0 之间的数。 由于尾数的高顺序位始终为 1,因此它不是以数字形式存原创 2015-04-24 23:51:58 · 3668 阅读 · 1 评论 -
parallel reduction 并行规约,unroll last warp 同步问题
在 CUDA 中提高 parallel reduction 类程序性能的一个技巧就是 unroll last warp ,这在官方给出的示例 CUDA Radix Sort (Thrust Library) ,CUDA Parallel Reduction,scan 中都有涉及,在 CUDA_sample 中提到:The included RadixSort class can sort ei原创 2015-04-27 16:27:08 · 1341 阅读 · 0 评论 -
虚拟机 virtualbox 安装 CUDA 可行性说明
在编写 CUDA 程序时遇到这么一个问题由于服务器端的 linux 运行环境,而本机是 win8 ,对在本机上通过 SSH 客户端或者通过 VS 编写 CUDA 程序再上传倒到服务器上调试运行的方式始终不适应,又不想装双系统,因此想通过虚拟机来安装 linux 操作系统然后在虚拟机上来调试 CUDA 程序。这中间就存在可行性的问题:虚拟机是模拟一个图形设备,这样的话你没有机会接触到真正原创 2015-04-17 11:50:26 · 36826 阅读 · 3 评论