书生·浦语大模型实战营第二期（初夏专场）学习笔记：（五）LMDeploy 量化部署 LLM-VLM 实践

满洲里有象ovo

于 2024-05-29 22:31:14 发布

阅读量287

点赞数 9

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56484746/article/details/139306432

版权

大模型部署背景

计算量巨大：大模型仅就推理而言，其前向传播计算量就已十分庞大，对算力要求高，成本十分高昂，处于较难承受的范围

内存开销巨大：大模型在推理时会产生很多重复计算，为了避免重复计算造成的内存开销，会将注意力机制里的KV进行缓存，称为KV Cache。大模型在推理时除计算量巨大外，所造成的内存开销也十分巨大

访存瓶颈与动态请求：由于硬件架构的不同设计，显卡计算速度远大于显存带宽，大模型在推理时，大部分时间都花在了访问数据上，存在访存瓶颈；并且一般来说，用户对大模型的请求量、请求时间等也是不确定的

大模型部署方法

模型剪枝

模型剪枝即为移除大模型里一些冗余的参数，以达到高效计算、推理的目的

知识蒸馏

知识蒸馏即是通过具有庞大参数量的教师模型指导轻量化的学生模型在参数量明显下降的情况下，也能达到甚至超过教师模型的性能

量化

量化就是将浮点数形式的数据转换为整数形式或其他离散形式，以降低对大模型参数的存储需求，降低成本，提高计算效率

LMDeploy简介

LMDeploy是一款涵盖了LLM的轻量化、部署以及服务的开源框架，功能齐全，性能高效，还在不断迭代升级过程里

课程链接：LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili

满洲里有象ovo

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语大模型实战营第二期（初夏专场）学习笔记：（五）LMDeploy 量化部署 LLM-VLM 实践

LMDeploy是一款涵盖了LLM的轻量化、部署以及服务的开源框架，功能齐全，性能高效，还在不断迭代升级过程里LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。