【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

songyuc

已于 2024-01-22 22:44:00 修改

阅读量672

点赞数 12

文章标签：学习笔记

于 2024-01-22 00:27:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyuc/article/details/135738212

版权

《(5)LMDeploy 大模型量化部署实践》

课程文档：《LMDeploy 的量化和部署》

1、大模型部署背景

在这里插入图片描述

1.1 模型部署

定义

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，例如模型压缩和硬件加速

产品形态

云端、边缘计算端、移动端

1.2 大模型特点

内存开销巨大

庞大的参数量。7B模型仅权重就需要14+G显存
采用自回归生成 token，需要缓存Attention的k/v，带来巨大的内存开销

在这里插入图片描述

1.3 大模型部署挑战

设备

如何应对巨大的存储问题？低存储设备（消费级显卡、手机等）如何部署？

推理

如何加速token的生成速度
如何解决动态shape，让推理可以不间断
如何有效管理和利用内存

2、LMDeploy简介

在这里插入图片描述 LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
项目地址：https://github.com/InternLM/lmdeploy

2.1 接口

python & gRPC & RESTful

3、动手实战环节

在InternStudio平台中选择 A100(1/4) 的配置，镜像选择 Cuda11.7-conda；

3.1 创建虚拟环境

conda create -n lmdeploy --clone /share/conda_envs/internlm-base

3.2 对话测试

请编写一个300字以上的小故事

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。