CUDA
文章平均质量分 65
tensor.shape
这个作者很懒,什么都没留下…
展开
-
CUDA笔记3
K个thread,刚好动态映射_a,d_b的m。原创 2024-01-22 00:09:32 · 1014 阅读 · 1 评论 -
Cuda笔记1
培训00111+…+100,CPU是串行执行,GPU是分成几部分同时计算,如1+2+3,4+5+6…培训002一来一回每种定义有对应的调用位置,和执行位置,不对会报错。下图是用NVPROF时间分析下图是资源分析CUDA线程层次一个SM执行多个block所有线程执行同一个kernel,每个线程处理的数据不一样线程在cuda core里面,block以块为单位分配到sm中,grid在device中如图描述的是:9个block分给3个sm这张ppt的流程与下面这个原创 2024-01-21 13:42:25 · 425 阅读 · 1 评论 -
CUDA笔记2
bank冲突的定义:同一个warp中的线程访问同一个bank中的不同地址,如图同一个warp中的thread0和thread8访问同一个bank0的不同地址。P当中有多少个元素,就申请多少个thread,每个线程读取一行,一列。如右图,0-47共48个数,申请48个线程,需找到每个元素在所有线程的坐标。同一个warp的thread访问的是不同bank,也就避免了。矩阵AB保存在全局存储中,每个thread读取一行,或一列,问那个更快?blockIdx.x和blockIdx.y分别是1和1,因为(1,1)原创 2024-01-21 15:49:59 · 357 阅读 · 0 评论