【书生·浦语】大模型实战营——第五课笔记

最新推荐文章于 2024-06-27 22:40:37 发布

Horace_01

最新推荐文章于 2024-06-27 22:40:37 发布

阅读量1k

点赞数 18

文章标签：笔记人工智能 python 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50123831/article/details/135571393

版权

教程文档：https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md
视频链接：https://www.bilibili.com/video/BV1iW4y1A77P

大模型部署背景

关于模型部署

通常需要模型压缩和硬件加速
在这里插入图片描述

大模型的特点

1、显存、内存花销巨大
2、动态shape，输入输出数量不定
3、相对视觉模型，LLM结构简单，大部分都是decoder-only
在这里插入图片描述

大模型部署挑战

大模型的特点所带来的部署挑战：
1、设备：如何应对巨大的存储问题？
2、推理：如何加速token生成速度？如何有效管理、使用内存？
3、服务：如何提升系统整体吞吐量，如何降低响应时间？
在这里插入图片描述

大模型部署方案

在这里插入图片描述
continuous batch用于解决动态batch问题
云端常用的部署方案：deepspeed、tensorrt-llm、vllm、Imdepoly
移动端：llama.cpp（对移动端设备做了优化）、mlc-llm

LMDepoly简介

LMDeploy是LLM在nvidia设备上部署的全流程解决方案。（还没有涉及到移动端）

关于轻量化：
1、权重的4bit量化
2、k v cache的8bit量化

关于推理引擎：
1、turbomind，是LMDeploy的一个创新点
2、pytorch

关于服务：
1、api server
2、gradio：主要用于演示demo
3、triton inference

在这里插入图片描述

在这里插入图片描述
LMDeploy比vLLM的性能要好。

核心功能——量化

在这里插入图片描述
量化后，最大的输出长度变为原来的4倍。

为什么做Weight Only的量化？

LLM中存在两种密集场景：
1、计算密集：神经网络参数量大，前向一次要经过很多计算，这个我是理解的
2、访存密集：读取什么数据呢？这个我很疑惑，群里有大佬说是KV Cache的访存

大部分时候，LLM访存才是性能瓶颈的原因，而不是数值计算的时候。

为什么只做weight only的量化？一举多得
1、将FP16的模型权重量化为int4，访存量降为FP16的1/4，降低了访存成本，提高了decoding速度（不太理解具体的过程？）
2、节省了显存

如何做weight only的量化？

使用AWQ算法。
在这里插入图片描述
AWQ的思想：在矩阵计算中，有一部分参数是非常重要的，所以其他参数可以量化来降低精度。

推理引擎TurboMind

在这里插入图片描述

持续批处理

continuous batch
两个重要的概念：
1、请求队列
2、batch slot
在这里插入图片描述

流程：

有状态的推理

在这里插入图片描述
问的时候，历史消息放在模型推理处

blocked k/v cache

在这里插入图片描述
k、v是transformer里attention计算产生的东西。后面计算需要依赖于k，v。
blocked指的是分块。
只存当前使用的k，v。

高性能cuda kernel

在这里插入图片描述
flash attention、fast w4a16，kv8、split-k decoding、算子融合这四个东西都是为了加快token生成速度的。

推理服务 api server

可以通过一个简单的命令，运行起一个服务
在这里插入图片描述

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
【书生·浦语】大模型实战营——第五课笔记

LMDeploy是LLM在nvidia设备上部署的全流程解决方案。（还没有涉及到移动端）关于轻量化：1、权重的4bit量化2、k v cache的8bit量化关于推理引擎：1、turbomind，是LMDeploy的一个创新点2、pytorch关于服务：2、gradio：主要用于演示demoLMDeploy比vLLM的性能要好。
复制链接

扫一扫

Horace_01 CSDN认证博客专家 CSDN认证企业博客

码龄4年

36: 原创

40万+: 周排名

9万+: 总排名

2万+: 访问

: 等级

580: 积分

145: 粉丝

192: 获赞

26: 评论

260: 收藏

私信

关注

热门文章

分类专栏

最新评论

【书生·浦语】大模型实战营——第四课作业
智能提桶工程师: 感谢大佬的提醒修改绝对路径，还是粗暴一点修改绝对路径好，因为由于开发机公用的太难抢而且性能一般般所以自己在本地建立了一个服务器来跑这个导致很多路径可能有影响哈哈哈
【书生·浦语】大模型实战营——第四课作业
MovedInDream: 第二个坑是因为，你在chat文件夹下运行的脚本。 cd回项目root目录streamlit run ./chat/web_demo.py即可解决
【书生·浦语】大模型实战营——第四课作业
灵魂起源: 感谢大佬的报错修改教程，绝对路径很好用
jupyter notebook 文件无显示
韓菡不知佾: 太感谢了！！！卸载tornada再重新安装就可以了！！！
【语法糖】python函数
艾福hh: 理解了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。