CUDA
文章平均质量分 65
Luchang-Li
这个作者很懒,什么都没留下…
展开
-
transpose算子优化的几种常见场景
transpose算子优化的几种常见场景原创 2022-09-07 09:05:10 · 1418 阅读 · 0 评论 -
2D Transpose算子GPU实现和优化
2D Transpose算子GPU实现和优化原创 2022-09-03 08:04:16 · 825 阅读 · 1 评论 -
NVIDIA GPU SM和CUDA编程理解
本文旨在加深理解GPU底层硬件架构以及硬件如何执行CUDA 程序的细节,并且反过头来进一步指导CUDA程序的编写。原创 2021-11-13 22:08:20 · 6989 阅读 · 2 评论 -
error : invalid nontype template argument of type "const _GUID *"
CUDA代码中出现类似afx MFC等调用,把这些调用放到.cpp后缀代码中即可。原创 2019-06-23 20:10:34 · 1331 阅读 · 0 评论 -
CUDA Constant Memory常量内存使用问题
CUDA Constant Memory声明后,不能作为参数传递。比如可以这样__constant__ int constData[5];__global__ void addKernel(int *c, const int *a, const int *b){ int i = threadIdx.x; c[i] = a[i] + b[i] + constData[i...原创 2019-03-24 15:39:53 · 985 阅读 · 0 评论 -
CUDA visual studio 2015 2017配置
其实一般不需要配置,装好了就能正常语法高亮和查找CUDA里面的各种定义。如果不能,说明NVIDIA Nsight Visual Studio没有安装成功,可以下载单独的Nsight安装即可。 ...原创 2018-08-10 10:44:08 · 1128 阅读 · 0 评论 -
CUDA 动态链接库与静态链接库
参考《CUDA C BEST PRACTICES GUIDE》 chapter 15 PREPARING FOR DEPLOYMENT,关于部署CUDA加速的程序时,往往对CUDA加速的程序编译为动态链接库或者静态链接库。这两者导致的区别是,使用动态链接库,在目标机器上运行时,必须一并安装和编译库时一样的CUDA版本,而静态库没有这样的要求。可见静态库对使用者来说可能更加方便。原创 2016-10-03 09:37:34 · 3814 阅读 · 1 评论 -
CUDA GPU编程中使用结构体/类传递函数参数
CUDA GPU编程中使用结构体传递函数参数 CUDAGPU编程中,虽然统一寻址(Unified Memory)技术能够大大简化编程难度和代码复杂度,但是速度略有牺牲,同时对运行环境提出更多的要求。而在不使用这项技术时,编程时需要同时创建CPU(host)和GPU(device)端的变量指针,然后为其分别分配内存。操作完成后,再分别释放内存。CUDA工程的范例程序中,单原创 2016-09-21 10:24:19 · 10791 阅读 · 0 评论 -
CUDA Unified Memory统一内存使用注意
CUDA 6.0推出了统一内存寻址(Unified Memory)的方式,可以大大简化CUDA程序的编写,但有编程的时候几个小的注意点需要注意。原创 2016-04-13 10:17:18 · 9427 阅读 · 0 评论
分享