cuda
Go 鹏ya
这个作者很懒,什么都没留下…
展开
-
【模型推理优化学习笔记】CUDA加速矩阵乘计算
矩阵乘可以利用gpu多线程并行的特点进行加速计算,但是传统简单的方法需要多次读取数据到寄存器中,增加耗时,因此利用gpu的共享内存可以被一个block内的所有线程访问到的特性,结合tiling技术进行加速计算。原创 2023-11-06 21:34:41 · 524 阅读 · 0 评论 -
【模型推理学习笔记】cuda基础操作 -向量相加和元素相乘
【代码】【模型推理学习笔记】cuda基础操作 -向量相加和元素相乘。原创 2023-10-15 17:27:14 · 46 阅读 · 0 评论 -
【CUDA学习笔记】定位一个线程id
先放代码,这里实现的功能是两个长度为的tensor相加,每个block有1024个线程,一共有个block。原创 2023-06-25 00:33:01 · 210 阅读 · 0 评论