第5节笔记

最新推荐文章于 2024-08-17 17:03:35 发布

Thomas Bob

最新推荐文章于 2024-08-17 17:03:35 发布

阅读量269

点赞数 10

分类专栏：书生·浦语大模型实战营（第二期）文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39489477/article/details/138202437

版权

书生·浦语大模型实战营（第二期）专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文详细介绍了LMDeploy在大模型部署中的应用，包括模型部署的定义、特点以及针对大模型如GPT3的挑战，探讨了剪枝、蒸馏和量化等方法，以及LMDeploy提供的轻量化和部署服务功能，重点讲解了量化感知训练和内存管理策略。

摘要由CSDN通过智能技术生成

LMDeploy量化部署LLM实践笔记

文章目录

LMDeploy量化部署LLM实践笔记
- 模型部署与优化

模型部署与优化

模型部署

定义与特点
- 软件工程中部署是指开发完毕的软件投入使用。
- 人工智能领域模型部署是算法落地的关键；因为模型部署存在多种场景，例如是部署到CPU上，还是GPU/TPU/NPU上，还是多卡/集群上；或者说是部署到端侧上，例如机器人和手机。
- 在不同的场景下，部署有不同的需求，例如不同的硬件架构，需要有针对性的进行优化；或者部署到集群上，如何分布式推理；再例如部署到端侧上，需要针对端侧内存和计算能力较小的情况下，进行优化。这些都是实际生产中需要考虑的。
大模型部署
- 参数量巨大，推理大量计算。
- 根据InternLM2和openAI提供的计算量估算方法，20B模型每生成一个token，就要进行大约460亿次浮点运算。
- 20B算是小模型，GPT3参数量规模有175B，Batch-Size大一些，每次推理计算量将达到千万亿量级；A100 FP16理论运算性能每秒77.97万亿。
内存开销
- 以FP16为例子，20B模型加载参数需要40G+显存，175B模型(GPT3)需要350G+显存
- 由于KV cache的存在，还会额外占用显存，例如FP16，batch-size=16，输入为512 tokens，输出为32tokens，20B模型额外产10.3G 缓存
访存瓶颈
- 大模型推理是访存密集任务
动态请求
- 请求量不确定
- 请求时间不确定
- Token生成不确定

大模型部署方法

剪枝

蒸馏

量化

量化感知训练(QAT) LLM-QAT
- 量化感知训练，主要是通过QDQ让模型适应量化误差
量化感知微调(QAF) PEQA QLORA
- 微调过程中进行量化
训练后量化(PTQ) LLM.int8 AWQ
- 训练后量化，减少LLM的存储和计算复杂性

LMDeploy

涵盖了LLM任务的全套轻量化、部署和服务功能包
有状态推理学到了
可扩展的KV 缓存器类似于内存池和页式管理，用到了kv cache

LMDeploy核心功能

支持各种模型推理部署

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
第5节笔记

可扩展的KV 缓存器类似于内存池和页式管理，用到了kv cache。涵盖了LLM任务的全套轻量化、部署和服务功能包。
复制链接

扫一扫

专栏目录

Thomas Bob CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

148万+: 周排名

10万+: 总排名

9911: 访问

: 等级

360: 积分

143: 粉丝

192: 获赞

11: 评论

162: 收藏

私信

关注

热门文章

分类专栏

最新评论

第6节笔记
CSDN-Ada助手: 恭喜您撰写第10篇博客！持续创作是提升自己的最好方法，希望您能够保持这样的热情和动力。对于下一步的创作建议，我建议您可以尝试拓展一下主题的深度或者尝试一些新的写作风格，让读者有更多的新鲜感和启发。期待看到您更多精彩的作品，加油！
第6节作业
CSDN-Ada助手: 恭喜你完成了第11篇博客“第6节作业”，持续创作是一个不断进步的过程，你的坚持和努力让人钦佩。接下来，我建议你可以尝试挑战一些新领域或主题，拓宽自己的创作思路，让读者能够看到更多不同的内容。希望你能继续保持创作的热情，不断进步，期待你的更多精彩作品！
第7节作业
CSDN-Ada助手: 恭喜您完成了第12篇博客，“第7节作业”，真是辛苦了！不断坚持创作，让我们能够分享到您的心得体会，真是令人鼓舞。接下来，或许您可以尝试探索更多不同的主题，让读者能够从不同的角度了解您的见解和思考。期待您的下一篇作品，继续为我们带来新的启发和思考！祝您创作愉快！
第7节笔记
CSDN-Ada助手: 恭喜您发布了第13篇博客，“第7节笔记”！持续创作真的需要坚持和毅力，您的努力和热情让人钦佩。接下来，我建议您可以尝试探索一些新的主题或者深入挖掘某个领域，让您的博客内容更加丰富和有深度。期待看到您更多精彩的文章，加油！
第4节笔记
CSDN-Ada助手: 恭喜您发布了第14篇博客！坚持创作是一件不容易的事情，您的努力和坚持可嘉。希望您在接下来的创作中能够继续保持热情和耐心，不断提升自己的写作技巧和观点深度。或许可以考虑拓展一些新的主题或者加入一些个人见解，让读者更加感受到您的独特魅力。期待您更多精彩的作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。