LMDeploy量化部署LLM&VLM实践-笔记五

一棵二叉树

已于 2024-05-30 09:46:15 修改

阅读量257

点赞数 2

文章标签：人工智能笔记

于 2024-04-26 23:43:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46576562/article/details/138233730

版权

本文介绍了大模型部署面临的挑战，如计算量和内存开销，以及应对策略如模型剪枝、知识蒸馏和量化。LMDeploy是一个轻量化部署解决方案，提供高效推理、可靠量化和便捷服务等功能，尤其强调了LMDeployTurboMind在性能上的优势。最后，文章引导读者进行量化部署实践。

摘要由CSDN通过智能技术生成

本次课程由西北工业大学博士生、书生·浦源挑战赛冠军队伍队长、第一期书生·浦语大模型实战营优秀学员【安泓郡】讲解【LMDeploy 量化部署 LLM&VLM 实践】课程

课程视频：https://www.bilibili.com/video/BV1tr421x75B/

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md

模型部署

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。
在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

大模型部署挑战一：计算量巨大

大模型部署挑战二：内存开销巨大

大模型部署挑战三：访存瓶颈

大模型部署方法：

模型剪枝：剪枝指移除模型中不必要或多余的组件，比如参数，以使模型更加高效。通过对模型中贡献有限的兄余参数进行剪枝，在保证性能最低下降的同时，可以减小存储需求、提高计算效率。
知识蒸馏：知识蒸馏是一种经典的模型压缩方法，核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型，在不改变学生模型结构的情况下提高其性能。
量化：量化技术将传统的表示方法中的浮点数转换为整数或其他离散形式，以减轻深度学习模型的存储和计算负担。

LMDeploy简介：

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。

功点：

高效推理
可靠的量化
便捷的服务
有状态推理

核心功能：模型高效推理、模型量化压缩、服务化部署

LMDeploy性能表现：

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM的1.36~1.85 倍。在静态推理能力方面，TurboMind 4bit 模型推理速度(out token/s)远高于FP16/BF16推理。在小batch时，提高到2.4倍。

动手实践部分见：LMDeploy量化部署LLM&VLM实践-作业五

一棵二叉树

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
LMDeploy量化部署LLM&VLM实践-笔记五

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM的1.36~1.85 倍。LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。本次课程由西北工业大学博士生、书生·浦源挑战赛冠军队伍队长、第一期书生·浦语大模型实战营优秀学员【安泓郡】讲解【OpenCompass 大模型评测实战】课程。核心功能：模型高效推理、模型量化压缩、服务化部署。大模型部署挑战二：内存开销巨大。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一棵二叉树 谢谢你们的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。