![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cuda
文章平均质量分 89
猪猪虾的业余生活
这个作者很懒,什么都没留下…
展开
-
cuda 学习笔记4
global// __是GOU函数的标识符,加了__标识这个函数是在GPU上被调用的//这个函数在GPU上是无法调用的,所谓在GPU上,就是定义的在GPU上的函数内调用,因为该函数当前是在CPU上//这个函数是被定义在GPU上,由GPU本身调用的函数,所以加了这个__devide__标识之后,就可以在__global__ void show(int *a)函数里面调用该函数。原创 2024-06-27 22:01:55 · 851 阅读 · 0 评论 -
cuda学习笔记(3)
下面这种写法,对于第一个bin来说,假设输入数据是1:66655,数据1和17都会同时读bin里面的初始计数,然后进行累加,正常来说应该是两个数据同时读了bin1的0,然后同时写一个1进去,最后结果总是1,但是可能机器会出问题,导致最多也就写一个2,先后加了1.前面提到,Block里面的线程运行是同步的,不同kernel各自运行是同步的,kenelA内的东西全部运行结束之后才会运行kernel B,Block的线程同步是需要使用者自己来控制,kernel上的同步运行是GPU自己来实现的。原创 2024-06-10 18:54:57 · 706 阅读 · 0 评论 -
win10 + wsl2.0 + cuda12.0 + cudnn8.8.1 + MCgpu1.3 安装记录
编译器的终端就可以直接运行mcGPU,同在linux里面打开的终端是一样的功能。使用cd home/我的用户名/MCGPU-master在visual studio code下方的终端里面进入改文件夹,执行就是运行。原创 2024-05-16 09:32:17 · 1101 阅读 · 0 评论 -
cuda学习笔记(2)
1个warp是32个线程,block内的线程再次进行分组执行,因为资源有限,一个warp内的数据是默认同步的。分支如何工作,只有一个大脑,8个流输入的是同一段代码,有的是t,有的是f,执行t的时候,f只能等待。第1步:为数据分配GPU空间,将数据从cpu上拷贝到GPU上,同时为输出数据分配内存空间。GPU就是将cpu的数据存储单元去掉,也就是保留执行单元,GPU就是多个执行单元。假设只要1个block,block是二维的,i,j对应二维索引。停滞的解决方法:用别的独立的工作,来填满空余时间,延迟掩藏。原创 2024-02-26 19:07:13 · 384 阅读 · 0 评论 -
c++ cuda加速---错误汇总
显卡驱动下载官网,需要知道自己电脑的显卡类型。原创 2023-05-05 19:59:16 · 836 阅读 · 0 评论