LMDeploy 量化部署 LLM-VLM 实践学习笔记

最新推荐文章于 2024-07-02 11:10:43 发布

凌漪_

最新推荐文章于 2024-07-02 11:10:43 发布

阅读量287

点赞数 1

分类专栏：书生-浦语大模型训练营2 文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a61022706/article/details/138287795

版权

书生-浦语大模型训练营2 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

视频链接 https://www.bilibili.com/video/BV1tr421x75B/?vd_source=a1ce254b4a97f9f687a83e661793cb2c

什么是模型部署

部署指的是已经开发好的大模型投入使用，要把模型部署到服务器或者移动端里，如何在有限的资源里加载大模型？
比如你好不容易训好了一个大模型，想在手机上跑，可是模型参数那么大，一次推理需要的显存也不小，手机上怎么访问？

计算量问题：
模型前向推理所需要的计算量（最终结果以flot 浮点运算次数来表示）
forward = 2*模型参数量+ 2层数 *上下文长度（默认1024）*模型层数 *注意力输出的维度（2048/4096等）

在这里插入图片描述
内存开销问题：

访存瓶颈
前面提到计算量和内存开销两个问题

可以通过三种方式来进行部署：
剪枝（主动减少一些的参数）、蒸馏（大模型训练小模型）、量化

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LMDeploy 量化部署 LLM-VLM 实践学习笔记

部署指的是已经开发好的大模型投入使用，要把模型部署到服务器或者移动端里，如何在有限的资源里加载大模型？比如你好不容易训好了一个大模型，想在手机上跑，可是模型参数那么大，一次推理需要的显存也不小，手机上怎么访问？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。