木子CS
码龄7年
关注
提问 私信
  • 博客:20,449
    社区:1,676
    22,125
    总访问量
  • 12
    原创
  • 1,063,019
    排名
  • 7
    粉丝
  • 0
    铁粉

个人简介:LLM Infer, AI Infra, CUDA

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-04-27
博客简介:

https://www.zhihu.com/people/mu-zi-zhi-6-28

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得5次评论
  • 获得78次收藏
  • 代码片获得288次分享
创作历程
  • 12篇
    2023年
成就勋章
TA的专栏
  • LLM推理
    3篇
  • CUDA Kernel优化
    3篇
  • Nvidia Tensor Core
    4篇
  • Nvidia GPU显存管理
    1篇
  • Nvidia GPU云基础设施
    3篇
兴趣领域 设置
  • 后端
    后端
  • 云原生
    云原生
  • 人工智能
    人工智能
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Decoding Attention-LLM推理优化

目前在大部分推理Decoding场景下,性能都优于Flash Attention和Flash Attention v2,此外Decoding Attention还支持GQA(Group Query Attention)/ MQA(Multi Query Attention)和ALiBi(Attention with Linear Biases)推理场景。代码开源在flash_attention_inference。​
原创
发布博客 2023.11.01 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nvidia CUDA Core-CUDA HGEMV优化

在深度学习模型特别是LLM(Large Language Model)的推理优化中,HGEMV(Half-precision General Matrix Vector Multiplication)半精度矩阵向量乘法的优化日趋重要。然而Cublas没有提供直接计算HGEMV的API,只能使用cublasGemmEx等相关API来间接调用Tensor Core计算HGEMV。
原创
发布博客 2023.10.10 ·
581 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flash Attention推理性能探究

Attention机制自Transformer发扬光大之后,在Large Language Model(LLM)中同样大放异彩。然而由于Softmax的计算限制,Multi Head Attention(MHA)的计算过程长期处于严重memory bound状态。Flash Attention基于Softmax的数学特性,将MHA的计算融合成一个算子,并采用计算和高速SRAM访存换取低速HBM访存的策略,缓解了memory bound压力,大幅提高了MHA的计算速度。
原创
发布博客 2023.08.28 ·
961 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Nvidia Tensor Core-CUDA HGEMM优化进阶

GEMM(General Matrix Multiplication)矩阵乘法是深度学习中最常用且最耗时的算法之一,特别是在CNN、RNN、Transformer等领域中。在这些领域中,大量的矩阵乘法操作需要被快速计算和处理。因此,高效的矩阵乘法实现对于深度学习任务的性能和准确性至关重要。
原创
发布博客 2023.07.14 ·
1677 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

清华ChatGLM-6B本地GPU推理部署

是一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。
原创
发布博客 2023.04.24 ·
3202 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

Nvidia GPU Virtual Memory Management

在CUDA 10.2中引入VMM API为应用程序提供了一种直接管理统一虚拟地址空间的方法,可以将显存的虚拟地址和物理地址解耦,允许编程人员分别处理它们。VMM API允许编程人员在合适的时候将显存的虚拟地址与物理地址进行映射和解映射。借助VMM API可以更好地解决动态调整显存大小的需求,只需要申请额外的物理地址,再与原始虚拟地址扩展的空间进行映射,既不需要更换追踪的显存地址,也不需要将数据从原始显存拷贝到新显存。
原创
发布博客 2023.04.21 ·
752 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nvidia Tensor Core-MMA PTX编程入门

对于计算能力在7.0及以上的CUDA设备,可以使用MMA PTX指令调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。
原创
发布博客 2023.04.14 ·
3174 阅读 ·
4 点赞 ·
0 评论 ·
12 收藏

Nvidia Tensor Core-WMMA API编程入门

对于计算能力在7.0及以上的CUDA设备,可以使用CUDA C++ API调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。
原创
发布博客 2023.04.11 ·
2529 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

Nvidia GPU热迁移-Singularity

在GPU虚拟化和池化的加持下,可以显著提高集群的GPU利用率,同时也可以较好地实现弹性伸缩。但有时会遇到需要GPU资源再分配的场景,此时亟需集群拥有GPU任务热迁移的能力。
原创
发布博客 2023.04.10 ·
684 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Nvidia Tensor Core初探

在基于深度学习卷积网络的图像处理领域,作为计算密集型的卷积算子一直都是工程优化的重点,而卷积计算一般转化为矩阵乘运算,所以优化矩阵乘运算自然成为深度学习框架最为关心的优化方向之一。鉴于此,Nvidia官方给出了一套硬件解决方案,即Tensor Core,可加速矩阵乘运算,实现混合精度计算,在保持准确性的同时提高吞吐量。
原创
发布博客 2023.04.07 ·
2630 阅读 ·
2 点赞 ·
1 评论 ·
14 收藏

Nvidia GPU池化-远程GPU

Nvidia GPU得益于在深度学习领域强大的计算能力,使其在数据中心常年处于绝对的统治地位。尽管借助GPU虚拟化实现多任务混布,提高了GPU的利用率,缓解了长尾效应,但是GPU利用率的绝对值还是不高,长尾现象依然存在。网卡池化、存储池化、内存池化、CPU池化等一系列相近基础设施领域的技术演进,让大家对GPU池化也产生了一些想法。
原创
发布博客 2023.04.03 ·
1369 阅读 ·
2 点赞 ·
2 评论 ·
5 收藏

Nvidia GPU虚拟化

随着Nvidia GPU在渲染、编解码和计算领域发挥着越来越重要的作用,各大软件厂商对于Nvidia GPU的研究也越来越深入,尽管Nvidia倾向于生态闭源,但受制于极大的硬件成本压力,提升GPU利用率、压榨GPU性能逐渐成为基础设施领域关注的焦点。自然地,为了追求GPU上显存资源和算力资源的时分复用和空分复用,大家都开始考虑软件定义GPU,GPU虚拟化应运而生。
原创
发布博客 2023.03.31 ·
2406 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏