LMDeploy 部署基础

最新推荐文章于 2024-09-15 15:29:29 发布

VC_Alexa

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量211

点赞数 10

文章标签：人工智能大作业开源

本文链接：https://blog.csdn.net/VC_Alexa/article/details/141204913

版权

教程：Tutorial/docs/L2/LMDeploy/readme.md at camp3 · InternLM/Tutorial · GitHub

里面的计算讲解清晰

搭建环境

conda create -n lmdeploy  python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

创建软链接

mkdir /root/models
ln -s /root/share/new_models//Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/models

LMdeploy 命令行启动internlm2.5 7B

lmdeploy chat /root/models/internlm2_5-7b-chat

提问，要双回车

LMdeploy API server启动internlm2.5 7B

lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

本地端口映射23333

本地打开localhost:23333

另开终端窗口，API到localhost:23333

conda activate lmdeploy
lmdeploy serve api_client http://localhost:23333

gradio链接API server

lmdeploy serve gradio http://localhost:23333 \
    --server-name 0.0.0.0 \
    --server-port 6006

本地映射6006端口

打开localhost:6006

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VC_Alexa

关注关注

10
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

InternLM LMDeploy 量化部署实战

weixin_47551406的博客

08-29

613

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。随着模型变得越来越大，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。此时代表我们成功地使用本地API与大模型进行了一次对话，如果切回第一个终端窗口，会看到如下信息，这代表其成功的完成了一次用户问题GET与输出POST。让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。

书生浦语之：LMDeploy量化部署实践

XUTINGZHANGLOVE的专栏

08-22

1052

本文旨在对 LMDeploy 环境配置以及与 InternLM2.5 和 InternVL2 结合使用的相关内容进行实践总结。

参与评论您还未登录，请先登录后发表或查看评论

L2-LMDeploy 量化部署进阶实践

weixin_51449774的博客

08-19

819

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。本次实践选用InternVL2-26B进行演示，其实就根本来说作为一款VLM和上述的InternLM2.5在操作上并无本质区别，仅是多出了"图片输入"这一额外步骤，但作为量化部署进阶实践，选用InternVL2-26B目的是带领大家体验一下LMDeploy的量化部署可以做到何种程度。int4是4位的整数格式，占用0.5字节（4位）的存储空间。(本步骤耗时较长，预计6h，请耐心等待)

LMDeploy 量化部署

qq_38915354的博客

06-13

932

在深入探讨LMDeploy的量化方案之前，我们先来理解两个核心概念：计算密集型和访存密集型。计算密集型场景意味着推理过程中，数值计算占据了大部分时间；而访存密集型则是指数据读取占据了推理的主要时间。对于LLM（大型语言模型）这类Decoder Only架构的模型，其推理过程往往表现为访存密集型，因此，如何有效减少访存占用的显存空间，对提升GPU计算效率至关重要。

LMDeploy 量化部署进阶实践

GYX67的博客

08-23

948

打开，进入如下界面并按箭头指示顺序点击。点选开发机，自拟一个开发机名称，选择镜像。我们要运行参数量为7B的InternLM2.5，由查询InternLM2.5-7b-chat的config.json文件可知，bfloat16所以我们需要大于14GB的显存，选择(24GB显存容量)，后选择，等状态栏变成运行中，点击，我们即可开始部署。在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。

（第5节）LMDeploy 量化部署 LLM 实践（基础+进阶）

H_1008的博客

06-13

1470

建议看视频前先把环境安装了，要不然又不知道空的那段时间干嘛了！

LMDeploy 量化部署 LLM 实践

weixin_44217506的博客

06-18

724

支持多模态模型：这一节内容其实比较简单，需要理解的知识点都是LMdeploy部署有关，更多的是希望同学们能够感受到LMdeploy部署的操作便捷性和输出的性能。

书生·浦语大模型（五）LMDeploy 量化部署 LLM-VLM 实践

ww1132的博客

04-22

1000

LMDeploy 量化部署 LLM-VLM 实践

L2-LMDeploy 量化部署进阶实践-任务

soul_sniper的博客

08-22

711

本次实践选用InternVL2-26B进行演示，其实就根本来说作为一款VLM和上述的InternLM2.5在操作上并无本质区别，仅是多出了"图片输入"这一额外步骤，但作为量化部署进阶实践，选用InternVL2-26B目的是带领大家体验一下LMDeploy的量化部署可以做到何种程度。在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。在上一章节，我们直接在本地部署InternLM2.5。

【第5节】LMDeploy 大模型量化部署实践

熊猫小妖的AI世界

04-24

1313

视频文档作业lmdeploy官方文档OpenXLab个人感觉camp2讲解的没有第一次的内容好，都是照着文档跑一遍，基础内容也没有啥深度(也可能是我水平太低哈，哈哈)。补充观看之前1.0版本的讲解吧文档视频基础作业（结营必做）配置 LMDeploy 运行环境以命令行方式与 InternLM2-Chat-1.8B 模型对话进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）

书生·浦语--（五）LMDeploy 量化部署 LLM-VLM 实践（基础作业）

ppyyds的博客

04-23

820

W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。两种不同的设置反应在不同的显存使用上，对于--cache-max-entry-count = 0.01来说基本不使用额外显存存储KV参数，显存的消耗跟载入一个1.8B模型的参数量基本相同，但此时推理速度大大降低。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。

LMDeploy 量化部署 LLM&VLM实战--全部作业

taotao_zhang1的博客

04-12

246

一、基础作业部分配置lmdeploy运行环境，下载internlm-chat-1.8b模型以命令行方式与模型对话二、进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）以API Server方式启动 lmdeploy，开启 W4A16量化，调整KV Cache的占用比例为0.4，分别使用命令行客户端与Gradio网页客户端与模型对话。（优秀学员）使用W4A1

【深度学习】InternVL2-8B，图转文，docker部署

q742971636的博客

07-17

735

执行这个代码可以开启一个fastapi接口，7860端口会被docker映射到7895.InternVL2-26B应该更好，但显存没那么大，只能跑InternVL2-8B了。

书生·浦语大模型全链路开源体系（LLM/AGENT/多模态/应用部署）从入门到精通

熊猫小妖的AI世界

04-17

941

书生浦语LLM大模型教程

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

weixin_45834800的博客

09-13

1021

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式，提供了详尽的分析。

【AI大模型】Kimi API大模型接口实现