CUDA Kernel优化
文章平均质量分 95
CUDA Kernel优化
木子CS
LLM Infer, AI Infra, CUDA
展开
-
Nvidia CUDA Core-CUDA HGEMV优化
在深度学习模型特别是LLM(Large Language Model)的推理优化中,HGEMV(Half-precision General Matrix Vector Multiplication)半精度矩阵向量乘法的优化日趋重要。然而Cublas没有提供直接计算HGEMV的API,只能使用cublasGemmEx等相关API来间接调用Tensor Core计算HGEMV。原创 2023-10-10 10:20:56 · 255 阅读 · 0 评论 -
Nvidia Tensor Core-CUDA HGEMM优化进阶
GEMM(General Matrix Multiplication)矩阵乘法是深度学习中最常用且最耗时的算法之一,特别是在CNN、RNN、Transformer等领域中。在这些领域中,大量的矩阵乘法操作需要被快速计算和处理。因此,高效的矩阵乘法实现对于深度学习任务的性能和准确性至关重要。原创 2023-07-14 18:02:44 · 660 阅读 · 0 评论