大模型听课笔记——书生·浦语（5）

最新推荐文章于 2024-10-02 22:45:05 发布

亲爱的阿基米德^

最新推荐文章于 2024-10-02 22:45:05 发布

阅读量588

点赞数 12

分类专栏：书生浦语学习笔记文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rabbit9798/article/details/135559971

版权

书生浦语学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文介绍了大模型部署中的挑战，如内存管理、速度优化和动态shape问题，重点阐述了LMDeploy的解决方案，包括模型量化（使用AWQ算法）和推理引擎TurboMind，以及持续批处理和有状态推理的技术。文章还提到HuggingFaceTransformers在不同平台的应用实例。

摘要由CSDN通过智能技术生成

LMDeploy 的量化和部署

1 大模型部署简介

模型部署：将训练好的模型在特定软硬件环境中启动的过程，使模型能够接受输入并返回结果。
为了满足性能和效率的需求。常常需要对模型进行优化，例如模型压缩和硬件加速
产品形态：云端、变韵计算端、移动端
计算设备：CPU、GPU、NPU、TPU等

大模型的特点：

内存开销巨大

庞大的参数量
采用自回归生成token, 需要缓存Attentionde k/v ，带来巨大的内存开销

动态shape

请求数不固定
Token逐个生成，且数量不定

相对视觉模型，LLM结构简单

大模型部署挑战

设备

如何应对巨大的存储

推理

如何加速token的生成速度
如何解决动态shape，让推理不间断
如何有效管理和利用内存

服务

如何提升整体吞吐量
如何降低响应时间

大模型部署方案

技术点

模型并行
低比特量化
Page Attention
transformer计算和访存优化
Continuous Batch

方案

1 huggingface transformers
2 专门的推理加速框架
云端： imdeplloy, vllm, tersorrt-lllm, deepspeed…
移动端： llama.cpp, mlc-llm…

2 LMDeploy 简介

LMDeploy是LLM是在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
在这里插入图片描述

量化——核心功能

为什么做量化？
显存下降
为什么做Weight Only的量化？
LLM是典型的访存密集型任务
在这里插入图片描述

如何做weight only 的量化？

LMDeploy使用MIT HAN LAB 开源的AWQ算法，量化为4bit模型
推理时，先把4bit权重法案量化回FP16（在kernel内部进行，从Global Memory读取时仍是4bit ），仍旧使用的是FP16计算
相较于社区使用较多的GPTQ算法 AWQ的推理速度更快，量化的时间更短

推理引擎TurboMind——核心功能

在这里插入图片描述

持续批处理

请求队列：推理请求首先加到请求队列中
persistent线程：
1 若batch中有空闲槽位，从队列拉取请求，尽量填满空闲槽位。若无，继续对当前batch中的请求进行forward
2 Batch每forward完一次，是否有request推理结束。结束的request发生结果，释放槽位。

有状态的推理

在这里插入图片描述

Blocked k/v cache

在这里插入图片描述

高性能的 cuda kernel

在这里插入图片描述

3 实践——安装、部署、量化

见作业（4）

亲爱的阿基米德^

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

亲爱的阿基米德^ CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

142万+: 周排名

24万+: 总排名

8513: 访问

: 等级

310: 积分

107: 粉丝

168: 获赞

17: 评论

129: 收藏

私信

关注

热门文章

分类专栏

书生浦语学习笔记 11篇

最新评论

搭建VirtualHome环境
XTU-Rookie: 黑屏解决不了
搭建VirtualHome环境
XTU-Rookie: 救命，黑屏怎么解决呀
Ubuntu下载Matterport3DSimulator时出现nvidia-docker：未找到命令
weixin_41399589: docker run -it -v $MATTERPORT_DATA_DIR:/root/mount/Matterport3DSimulator/data/v1/scans -v `pwd`:/root/mount/Matterport3DSimulator mattersim:9.2-devel-ubuntu18.04 使用这行命令建立容器能访问GPU么？
搭建VirtualHome环境
weixin_44829007: 作者你好，官方文档最后一步给出的这个指令python3 scripts/run_eval.py --progprompt-path $(pwd) --expt-name {expt_name} --openai-api-key {key} --unity-filename {v2.3_virtualhome_sim} --display {0}，第一个是项目的路径，第二个不太清楚设置成什么，第三个是个人申请的key，第四个也不太清楚，最后一个参数是默认设置成0吗？执行之后，提前打开的unity软件黑屏没有反应，请问怎么处理
搭建VirtualHome环境
weixin_44829007: 我也一样

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。