书生·浦语大模型实战营第二期学习笔记及作业(5)

视频教程链接:LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili

github教程链接:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md

  • 课程笔记

课程视频分为四部分:

1、大模型部署的背景、部署方法、IMDEI量化部署和大圆模型实践,以及实际部署中面临的挑战,包括计算量、内存开销、仿存瓶颈和用户请求不确定性等问题。


2、三种减少模型参数的方法:非结构化、结构化和知识蒸馏。

可以通过减少模型参数来提高计算效率

知识蒸馏方法来降低训练难度

模型量化可以提高计算效率,并减少模型参数所需的内存空间

3、LMdeploy核心功能

4、LMDeploy 量化部署 LLM-VLM 实践

二、作业部分

课程作业链接:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/homework.md

1、基础作业:

完成以下任务,并将实现过程记录截图:

配置 LMDeploy 运行环境

以命令行方式与 InternLM2-Chat-1.8B 模型对话

2、进阶作业

设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。

开启W4A16量化

设置KV Cache最大占用比例为0.4

  • 以命令行方式与模型对话。

​​​​​​​②API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。

通过以下命令启动API服务器,推理internlm2-chat-1_8b模型:

lmdeploy serve api_server \
    /root/internlm2-chat-1_8b-4bit \
    --model-format awq \
    --cache-max-entry-count 0.4 \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

首先通过VS Code新建一个终端,用命令行客户端去连接API服务器。

新建一个VSCode终端,激活conda环境,使用Gradio作为前端,启动网页客户端。

与模型进行对话:

③使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。

④使用 LMDeploy 运行视觉多模态大模型 llava gradio demo

通过浏览器访问http://127.0.0.1:7860,使用模型问答

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值