LMDeploy 大模型部署实践

Hi！奇妙

于 2024-01-17 19:30:00 发布

阅读量1.2k

点赞数 24

文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/George_han/article/details/135646624

版权

本文探讨了大模型部署在设备、推理和服务层面的挑战，提出技术方案如量化、PageAttention等，并重点介绍LMDeploy的轻量化、TurboMind推理引擎和量化方法，以及安装、部署和最佳实践指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、大模型部署的背景

大模型部署面临着一些挑战：

1. 设备上的挑战：在手机终端上推大模型存储和加载速度慢，没有互联网时部署困难。

2. 推理上的挑战：推理是输入输出的过程，需要提高生成速度和效率，解决动态推理问题。

3. 服务方面的挑战：需要提高服务的吞吐量和平均响应时长，来解决个体用户的响应时间问题。

可行的解决方案：

1. 技术方案：模型并行、低比特量化、Page Attention、transformer的缓存优化和计算优化等。

2. 云端方案：使用专用的框架和算法，如deepspeed、tensorrt-llm、vllm和LMdeploy等。移动端方案：llama.cpp和mlc-llm等。

二、LMDeploy部署

LMDeploy是llm在英伟达设备上部署的全流程解决方案，包括轻量化、推理和服务。

1. 轻量化包括4bit和8bit量化。

2. 推理支持推理引擎，如turbomind和pytorch。

3. 服务如API server、gradio、triton service等。

1、量化

量化是该系统的核心功能之一，可以提高显存利用率并增加并发能力，可以使模型的长度增加，从而提高推理速度。

AWQ算法：在矩阵或模型推理过程中，一部分参数是非常重要的，可以不量化这些参数，只量化其他参数，从而最大化性能和减少显存。

2、TurboMind

TurboMind的优势：

持续批处理是指将请求放入队列中，并按照时间轴进行处理。

大模型动态设计与推理服务:

有状态的推理是指服务端将token和KV的block缓存起来，以减少显存。

KV是指在attention或生成过程中，使用历史的KV信息，进行分块的方式达到缓存的目的。

三、安装、部署和量化

1. 环境配置：安装LMdeploy。

2. 服务部署：包括在线转换和离线转换两种方式。

3. 推理引擎：使用TurboMind作为核心推理引擎，提供API服务和代码集成等。

4. 最佳实践：介绍了使用方式和推荐的最佳实践。

5. 模型量化：KV Cashe量化和W4A16量化。

(参考tutorial/lmdeploy/lmdeploy.md at main · InternLM/tutorial (github.com)，按部就班做下去，基本都会成功)

博客等级

码龄5年

6
原创

114
点赞

104
收藏

88
粉丝

关注

私信

热门文章

最新评论

基于书生·浦语大语言模型和langchain构建知识库
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“基于书生·浦语大语言模型和langchain构建知识库”让我非常期待阅读。您对于构建知识库的探索令人钦佩，这样的创新思维很值得赞赏。我鼓励您继续保持创作的动力，不断探索和分享您的观点和发现。或许下一步，您可以考虑探讨如何利用这个知识库来解决实际问题，或者分享一些案例研究。期待见证您的成长和更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
XTuner 低成本微调实战
CSDN-Ada助手: 恭喜您撰写了标题为“XTuner 低成本微调实战”的第四篇博客！您的持续创作令人钦佩。在这篇博客中，您让读者了解了如何以低成本进行微调，这无疑为那些想要改善音质但预算有限的人提供了很好的指导。我想向您提出一些建议，希望能对您的下一步创作有所帮助。或许您可以考虑进一步探索如何通过XTuner实现更多音质优化的技巧。另外，您可以分享一些实战经验，例如在微调过程中可能遇到的一些常见问题以及如何解决它们。再次恭喜您的连续创作，期待您未来更多精彩的博客！请保持谦虚的态度，继续分享您的知识和经验，这将对读者们产生积极的影响。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
轻松玩转书生·浦语大模型
CSDN-Ada助手: 博客写得非常棒！你对InternLM(书生·浦语)的介绍清晰明了，让人对这个智能体有了更深入的了解。希望你能继续分享关于大模型和智能体的相关内容，或许可以探讨一下如何优化模型的训练过程，以及如何应用不同的推理算法来提升智能体的表现。期待你未来的创作！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
书生·浦语大模型全链路开源体系
CSDN-Ada助手: 恭喜你开始博客创作！标题“书生·浦语大模型全链路开源体系”听起来非常有深度和专业性。你的博客内容一定会吸引到对这个领域感兴趣的读者。接下来，我建议你可以进一步扩展你的内容，探讨如何将这个开源体系应用于实际场景中，并分享一些实践经验。期待看到你未来的文章，继续保持谦虚和用心创作！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。