第五课:轻松玩转书生·浦语LMDeploy 量化部署 LLM-VLM 实践|笔记|作业

本文介绍了如何使用LMDeploy进行大模型如InternLM2-Chat-1.8B的部署,包括配置环境、模型对话、量化优化(如W4A16量化)以及服务化接口的搭建,重点展示了如何通过调整KVCache和量化技术来减少内存开销和提升推理速度。
摘要由CSDN通过智能技术生成

视频链接:LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili

基础作业(结营必做)

完成以下任务,并将实现过程记录截图:

  • 配置 LMDeploy 运行环境
  • 以命令行方式与 InternLM2-Chat-1.8B 模型对话

进阶作业

完成以下任务,并将实现过程记录截图:

  • 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。(优秀学员必做)
  • 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。(优秀学员必做)
  • 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。(优秀学员必做)
  • 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。(优秀学员必做)
  • 将 LMDeploy Web Demo 部署到 OpenXLab 。

笔记:

一、大模型部署背景

        1、模型部署的概念

        模型部署就是将已经训练好的深度学习模型在特定环境中运行的过程。这些特定环境会根据实际业务场景进行选择,例如部署到服务器端或者移动/边缘端。如果部署到服务器端,还涉及到是CPU部署或是单GPU/TPU/NPU部署,如果是集群/多卡部署,还要考虑如何分布式推理大模型等方面的内容。如果部署到手机/边缘端,需要考虑端侧的计算能力是否足够,由于大模型参数量、计算量都非常巨大,如何在资源有限的环境中加载、推理大模型,都是实际部署大模型需要考虑的问题。

        2、大模型部署面临的挑战

        计算量巨大

        内存开销巨大

        访存存在瓶颈,并且请求不确定,是动态的

二、大模型部署方法

        1、模型剪枝,分为结构化剪枝和非结构化剪枝

        2、知识蒸馏(KD)

        3、模型量化

三、LMDeploy简介

        1、核心功能

        包括模型高效推理、模型量化压缩、服务化部署三个方面。

        2、LMDeploy性能

        3、LMDeploy支持视觉多模态大模型推理

        4、LMDeploy支持多种模型,如下表

四、动手实践

作业:

1、创建cuda-12.2镜像的开发机,10%的A100

2、进入开发机,执行studio-conda -t lmdeploy -o pytorch-2.1.2

3、安装LMDeploy

切换到lmdeploy env,并执行pip install lmdeploy[all]==0.3.0

4、LMDeploy模型对话(chat),首先下载模型

5、使用Transformer库运行模型

速度比较慢,有数分钟

6、使用LMDeploy与模型对话

lmdeploy chat /root/internlm2-chat-1_8b

速度比较快

7、LMDeploy模型量化(lite)

首先设置最大KV Cache缓存大小

为了方便对比,先不调整--cache-max-entry-count参数,默认比例0.8,
lmdeploy chat /root/internlm2-chat-1_8b

接着改变--cache-max-entry-count参数,设为0.5,显存降为6608MB

接下来把--cache-max-entry-count参数设置为0.01,约等于禁止KV Cache占用显存。

然后与模型对话,可以看到,此时显存占用仅为4560MB,基本等同于1.8B的模型参数占用,代价是会降低模型推理速度。

8、使用W4A16量化

为了更加明显体会到W4A16的作用,将KV Cache比例再次调为0.01,查看显存占用情况。

经过量化,可以看出显存占用明显降低很多(显存 2472MB),从而可以在一些消费级显卡上跑相关模型。

9、LMDeploy服务(serve)

首先启动API服务器,之后新建一个Terminal,通过命令行客户端连接API服务器

也可以通过网页客户端连接API服务器,使用Gradio作为前端,启动网页客户端。

接着做端口转发,之后访问网页

10、Python代码集成

11、向TurboMind后端传递参数,以设置KV Cache占用比例为例

12、使用LMDeploy运行视觉多模态大模型llava

首先安装llava依赖库,安装完成后,升配开发机到30% A100

接着通过Gradio来运行llava模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值