书生大模型实战营 LMDeploy 量化部署进阶实践

m19735499476

已于 2024-08-16 23:04:44 修改

阅读量318

点赞数 4

文章标签：自然语言处理

于 2024-08-16 17:44:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m19735499476/article/details/141262834

版权

使用lmdeploy直接运行

使用如下命令运行lm2.5 7b

lmdeploy chat /root/models/internlm2_5-7b-chat

看到显存占用约为95%，即约为 22.8GB

创建API服务器

在这里插入图片描述

本地进行连接

本地调用
使用max cache为0.4
占用约为80%，少了约3.6G

使用int4量化

那么本节中19GB的显存占用与[2.2.1 设置最大kv cache缓存大小](#2.2.1 23)中19GB的显存占用区别何在呢？

由于都使用BF16精度下的internlm2.5 7B模型，故剩余显存均为10GB，且 cache-max-entry-count 均为0.4，这意味着LMDeploy将分配40%的剩余显存用于kv cache，即10GB*0.4=4GB。但quant-policy 设置为4时，意味着使用int4精度进行量化。因此，LMDeploy将会使用int4精度提前开辟4GB的kv cache。

相比使用BF16精度的kv cache，int4的Cache可以在相同4GB的显存下只需要4位来存储一个数值，而BF16需要16位。这意味着int4的Cache可以存储的元素数量是BF16的四倍。
在这里插入图片描述

占用计算

fp16的7b模型，占用14GB，因此剩余10GB
max cache为0.4，占用额外4GB一共占用约75%

int4的Cache可以存储的元素数量是BF16的四倍。

W4A16量化

在这里插入图片描述
漫长的等待…
终于！

量化之后模型非常小

分析下占用

在这里插入图片描述
7B*0.5=3.5B,约为3.5GB，剩余20.5GB
max-cache的80%，为16.4GB
总共使用16.4+3.5~=20GB，约为83%，跟实际情况符合

来个顶级量化

极致省内存
在这里插入图片描述
变小了，也变蠢了？（）

工具函数调用

在这里插入图片描述

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

m19735499476 CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

125万+: 周排名

7万+: 总排名

6891: 访问

: 等级

299: 积分

60: 粉丝

65: 获赞

2: 评论

24: 收藏

私信

关注

热门文章

最新评论

windows下开启移动热点无法被连接&配置网络共享无法更改热点的ip为192.168.137.1
CSDN-Ada助手: 网络技能树或许可以帮到你：https://edu.csdn.net/skill/network?utm_source=AI_act_network
linux下如何通过/etc/systemd/network/ 配置静态ip?
CSDN-Ada助手: 非常感谢你分享这篇关于在Linux下配置静态IP的文章！持续创作是很重要的，你的经验和分享一定会帮助到更多有同样问题的人。除了在/etc/systemd/network/中配置静态IP，你可能还可以了解一些网络管理工具如ip命令、nmcli等，它们也可以帮助你更灵活地管理网络设置。希望你在探索Linux网络配置的过程中能够不断积累更多的知识和技能，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
无盘符的SD卡镜像备份方法
CSDN-Ada助手: 恭喜你开始了博客创作！阅读了你的关于“无盘符的SD卡镜像备份方法”的文章，觉得内容很有启发性。建议下一步可以尝试分享一些具体的操作步骤或者案例分析，让读者更加深入地了解这个备份方法的实际应用和效果。期待你更多精彩的博客内容，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。