推理优化
Go 鹏ya
这个作者很懒,什么都没留下…
展开
-
【模型推理优化学习笔记】CUDA加速矩阵乘计算
矩阵乘可以利用gpu多线程并行的特点进行加速计算,但是传统简单的方法需要多次读取数据到寄存器中,增加耗时,因此利用gpu的共享内存可以被一个block内的所有线程访问到的特性,结合tiling技术进行加速计算。原创 2023-11-06 21:34:41 · 516 阅读 · 0 评论 -
【模型推理优化学习笔记】张量并行和流水线并行简介
当每个张量被分成多个块时,就会发生张量并行性,并且张量的每个块都可以放置在单独的 GPU 上。在计算过程中,每个块在不同的 GPU 上单独并行处理,并且可以通过组合来自多个 GPU 的结果来计算结果(最终张量)。原创 2023-10-21 23:21:12 · 526 阅读 · 0 评论 -
【模型推理学习笔记】cuda基础操作 -向量相加和元素相乘
【代码】【模型推理学习笔记】cuda基础操作 -向量相加和元素相乘。原创 2023-10-15 17:27:14 · 45 阅读 · 0 评论 -
【CUDA学习笔记】定位一个线程id
先放代码,这里实现的功能是两个长度为的tensor相加,每个block有1024个线程,一共有个block。原创 2023-06-25 00:33:01 · 204 阅读 · 0 评论