LMDeploy笔记

Undefined游侠

于 2024-05-10 16:59:56 发布

阅读量472

点赞数 5

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/138671810

版权

随谈模型部署

模型部署包含的内容很多，来聊聊。

访存bottleneck

首先，基于transformer的计算是访存密集型任务。

so?

过去，我们表达模型的性能，通常会用ops，macs这些指标,也计算量来衡量模型的推理时间，这很容易理解，计算的次数越多，花的时间更久。但是对于基于transformer的大模型，由于kqv映射矩阵的每一个元素都要参与计算（脑补一下卷积的过程作对比），会带来巨大的内存访问量。下列两张图用数字更量化的展示了这个问题。

你可能会说，我用的是A100，80G显存，我兵强马壮。但实际上，GPU的架构包含了sRAM和dRAM，和CPU的sRAM和dRAM一样，sram小但是快（d 192KB， 19TB/s），dram/HBM大但是慢（40-80GB with bandwidth 1.5-2.0TB/s）。在计算时，模型的权重需要dram转移到sram，这部分的耗时有可能成为模型推理时间的瓶颈，因此，Flash attention，group atention等一系列优化就孕育而生。

剪枝（pruning）

剪枝是一个很出名的概念，因为它翻译的很好，你可以想象树上的枝叶被剪掉的场景，就像linar曾映射的时候，很多权重消失了.

如果它们“消失”了，可以想象的是，我们可以存储更少的权重，需要更小的运算量。

想想当然激动，但是你细想一下，怎么定义“消失”的权重，从数学上，如果一个数值为0，我们可以把它当作消失，但是，实际上，我们表达模型的时候，通常都是用矩阵来表示权重，如果这些权重为0，其实并不能减少计算量，也不能减少模型大小。这就是剪枝这种方法雷声大雨点小的原因，基于非稀疏的矩阵存储形式，很难执行，但是，硬件厂商可以去支持，通过支持稀疏矩阵的推理来实现它。

蒸馏

知识蒸馏KD是AI GodFather Hinton团队首先提出来的，简单来说，让student来学习teacher model，怎么学，有很多研究。

量化

是深度学习加速中最常用的一种技术，早期主要是QAT，PTQ。但是随着大模型的兴起，这一领域蓬勃发展。2 bit量化不是梦。。。

LMDeploy

核心功能

模型高效推理：TurboMind包括：LLaMa结构模型的支持，continuous batch推理模式和可扩展的KV缓存管理器

模型量化压缩：W4A16量化（AWQ）将FP16的模型权重量化为INT4。Weight Only是指仅量化权重，数值计算依然采用FP16

服务化部署：将LLM封装为HTTP API，支持Triton拓展

Undefined游侠

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Undefined游侠 CSDN认证博客专家 CSDN认证企业博客

码龄10年

83: 原创

1万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1285: 积分

357: 粉丝

451: 获赞

6: 评论

464: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据结构与算法2 哈希表
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
EfficientAI Lab：大模型AWQ量化
cooper6666: 咨询一下，为什么现在awq只支持Int4量化，而不支持int3或者int8量化呢？

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。