LMDeploy量化部署实践

最新推荐文章于 2024-08-22 07:51:42 发布

2301_78174402

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量296

点赞数 4

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_78174402/article/details/141257238

版权

操作链接：Tutorial/docs/L2/LMDeploy/readme.md at camp3 · InternLM/Tutorial (github.com)

50%A100*1 建立机器

1. LMDeploy验证启动模型文件

InternStudio提供的资源监控

权重占用14GB，剩余显存40-14=26GB，因此kv cache占用26GB*0.8=20.8GB，加上原来的权重14GB，总共约占用34.8GB。

2. LMDeploy API部署InternLM2.5

部署InternLM2.5模型

端口映射

以Gradio网页形式连接API服务器

设置最大kv cache缓存大小，减小到25788

设置在线 kv cache int4/int8 量化

W4A16 模型量化和部署

W4A16 量化+ KV cache+KV cache 量化

3.LMDeploy之FastAPI与Function call

API开发

Function call

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LMDeploy量化部署实践

50%A100*11. LMDeploy验证启动模型文件InternStudio提供的资源监控权重占用，剩余显存，因此kv cache占用，加上原来的权重，总共约占用。2. LMDeploy API部署InternLM2.5部署InternLM2.5模型端口映射。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。