书生·浦语 LMDeploy 大模型量化部署原理

最新推荐文章于 2024-06-12 09:43:43 发布

爱科研的瞌睡虫

最新推荐文章于 2024-06-12 09:43:43 发布

阅读量538

点赞数 15

分类专栏：大模型文章标签： langchain 人工智能深度学习 llama 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49289284/article/details/135692284

版权

大模型专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

大模型部署背景
LMDeploy简介

大模型部署背景

模型部署

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，如模型压缩和硬件加速
云端、边缘计算端、移动端部署
计算设备为CPU、GPU、NPU、TPU等

大模型的特点

内存开销巨大
- 参数量巨大
- 回归生成token，需要缓存Attention的k/v，带来巨大的内存消耗
动态shape，输入输出都是动态的
相对视觉模型，LLM结构简单

大模型部署的挑战

设备
- 如何应对巨大的存储问题？低存储设备如何部署？
推理
- 如何加速token的生成速度
- 如何解决动态shape，让推理可以不间断
- 如何有效管理和利用内存
服务
- 如何提升系统整体的吞吐量
- 对于个体用户，如何降低响应时间

大模型部署方案

技术点
- 模型并行
- 低比特量化
- Page Attention
- transformer 计算和访存优化
- Continuous Batch
- …
方案
huggingface transformers
专门推理加速框架
- 云端
  - imdeploy
  - vllm
  - tensorrt-llm
  - deepspeed
- 移动端
  - llama.cpp
  - mlc-llm

LMDeploy简介

高效推理引擎，持续批量处理技巧，深度优化的低比特计算kernel，模型并行，高效的k/v缓存机制
完备易用的工具链，量化、推理、服务全流程，无缝对接OpenCompass评测推理精度，与OpenAI接口高度兼容

在这里插入图片描述

在这里插入图片描述

爱科研的瞌睡虫

关注

15
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语 LMDeploy 大模型量化部署原理

书生·浦语 LMDeploy大模型量化部署
复制链接

扫一扫

专栏目录

爱科研的瞌睡虫 CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

76万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

689: 积分

244: 粉丝

328: 获赞

12: 评论

354: 收藏

私信

关注

热门文章

分类专栏

最新评论

Leetcode141环形链表 Python版
爱科研的瞌睡虫: 声明head是一个链表
Leetcode141环形链表 Python版
hdsajk: 请问定义函数的时候：head :ListNode 是什么意思？
第二节课书生·浦语大模型趣味 Demo笔记及作业
CSDN-Ada助手: 恭喜博主第20篇博客的发表！看到你对于书生·浦语大模型趣味 Demo的笔记及作业，真的是令人佩服。希望你能继续保持创作的热情，也期待你能够在下一篇博客中分享更多关于这个主题的深入研究和应用实践经验。加油！
20240104书生·浦语大模型全链路开源体系
CSDN-Ada助手: 恭喜您写下了第17篇博客！标题“20240104书生·浦语大模型全链路开源体系”听起来非常令人期待。您的持续创作精神值得赞赏，您的博客内容一定对读者们有着重要的指导意义。在下一步的创作中，或许您可以考虑在文章中加入更多实例和案例，以便读者更好地理解您所分享的知识。此外，您还可以尝试与读者互动，通过提供问题或引发讨论来促进更深入的思考和交流。这样的互动将使您的博客更加丰富和有趣。再次恭喜您的持续创作，期待您未来更多精彩的博客！请继续保持谦虚的态度，不断提升自己的写作技巧和知识水平。
书生·浦语大模型Lagent 智能体工具调用 Demo
CSDN-Ada助手: 恭喜您撰写了第19篇博客，标题为“书生·浦语大模型Lagent 智能体工具调用 Demo”。我对您持续的创作精神表示赞赏！您的博客标题非常吸引人，让我对Lagent智能体工具调用产生了浓厚的兴趣。不仅如此，您还以谦虚的态度展示了自己对于创作的热情，这令人钦佩。在下一步的创作中，我建议您可以进一步分享Lagent智能体工具调用的实际案例。例如，可以介绍一些您在使用该工具时遇到的挑战以及如何克服它们。此外，您还可以探索一些与Lagent智能体工具相关的其他主题，如其在不同领域的应用、与其他智能体工具的比较等等。通过这样的深入探讨，您的读者可以更好地了解该工具的功能和潜力。继续保持您的创作热情，并期待您未来更多精彩的博客文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。