![](https://img-blog.csdnimg.cn/9f6354ab168b40c5886f1265ed98a6a7.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Nvidia Tensor Core
文章平均质量分 94
Nvidia Tensor Core
木子CS
LLM Infer, AI Infra, CUDA
展开
-
Nvidia Tensor Core-CUDA HGEMM优化进阶
GEMM(General Matrix Multiplication)矩阵乘法是深度学习中最常用且最耗时的算法之一,特别是在CNN、RNN、Transformer等领域中。在这些领域中,大量的矩阵乘法操作需要被快速计算和处理。因此,高效的矩阵乘法实现对于深度学习任务的性能和准确性至关重要。原创 2023-07-14 18:02:44 · 880 阅读 · 0 评论 -
Nvidia Tensor Core-MMA PTX编程入门
对于计算能力在7.0及以上的CUDA设备,可以使用MMA PTX指令调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。原创 2023-04-14 19:02:18 · 2189 阅读 · 0 评论 -
Nvidia Tensor Core-WMMA API编程入门
对于计算能力在7.0及以上的CUDA设备,可以使用CUDA C++ API调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。原创 2023-04-11 00:02:00 · 1690 阅读 · 0 评论 -
Nvidia Tensor Core初探
在基于深度学习卷积网络的图像处理领域,作为计算密集型的卷积算子一直都是工程优化的重点,而卷积计算一般转化为矩阵乘运算,所以优化矩阵乘运算自然成为深度学习框架最为关心的优化方向之一。鉴于此,Nvidia官方给出了一套硬件解决方案,即Tensor Core,可加速矩阵乘运算,实现混合精度计算,在保持准确性的同时提高吞吐量。原创 2023-04-07 21:13:08 · 1887 阅读 · 1 评论