LMdeploy量化部署LLM实践笔记+作业

最新推荐文章于 2024-11-02 15:22:06 发布

gffvgvb

最新推荐文章于 2024-11-02 15:22:06 发布

阅读量189

点赞数 8

文章标签：笔记

本文链接：https://blog.csdn.net/2301_76609297/article/details/137728314

版权

本文介绍了如何在InternStudio开发机上创建并激活conda环境，安装lmdeploy，下载并验证internlm-chat-1.8b模型，以及通过命令行与模型进行对话的过程，使用了Transformer库和Huggingface社区的资源。

摘要由CSDN通过智能技术生成

1.LMDeploy环境部署

InternStudio开发机创建conda环境

studio-conda -t lmdeploy -o pytorch-2.1.2

接下来，激活刚刚创建的虚拟环境。

conda activate lmdeploy

安装0.3.0版本的lmdeploy。

pip install lmdeploy[all]==0.3.0

过程截图：

2.下载internlm-chat-1.8b模型

在InternStudio开发机上，可以按照如下步骤快速下载模型。

cd ~

然后执行如下指令由开发机的共享目录软链接或拷贝模型：

ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
# cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/

执行完如上指令后，可以运行“ls”命令。可以看到，当前目录下已经多了一个internlm2-chat-1_8b文件夹，即下载好的预训练模型。

ls

实战截图：

3.以命令方式与模型对话

导入Transformer库，Transformer库是Huggingface社区推出的用于运行HF模型的官方库。

回到终端，激活conda环境。

conda activate lmdeploy

运行python代码：

python /root/pipeline_transformer.py

实战截图：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

gffvgvb

关注关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

第五节课——LMDeploy 量化部署 LLM 实践（笔记+作业）

qq_42866802的博客

06-10

394

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

LMDeploy 量化部署 LLM-VLM 实践——笔记

YYYYbhjbhkv_的博客

04-22

1181

在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。高效的推理LMDeploy 开发了 Continuous Batch，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel 等重要特性。

1 条评论您还未登录，请先登录后发表或查看评论

LMDeploy 量化部署 LLM 实践（笔记五）

2302_81490682的博客

06-27

299

之后我们就可以与InternLM2-Chat-1.8B大模型对话了。（输入“exit”并按两下回车，可以退出对话。现在对模型进行量化：可以选择W4A16量化或者KV8量化。（4）最后打开浏览器，访问对应地址，就可以和模型对话了。打开InternStudio平台，创建开发机。之后，我们使用Transformer库运行模型。（2）用命令行客户端连接API服务器；（3）网页客户端连接API服务器；（1）先启动API服务器；将以下内容复制粘贴进入。

（第5节）LMDeploy 量化部署 LLM 实践（基础+进阶）

H_1008的博客

06-13

1525

建议看视频前先把环境安装了，要不然又不知道空的那段时间干嘛了！

LMDeploy 量化部署 LLM 实践（作业）

DizzyOK的博客

06-15

277

使用LMDeploy，对InternLM使用同样的问题，推理速度快了很多。

第五课 LMDeploy 量化部署 LLM-VLM 实践笔记与作业

wudiyjnewway的博客

06-06

1074

LMDeploy简而言之，是一套解决大模型的量化、部署、服务的解决方案套件。核心功能：模型高效推理；模型量化压缩；服务化部署。本文介绍了LMDeploy的应用

学习笔记 | LMDeploy 量化部署 LLM-VLM 实践

DrFlown的博客

04-22

1713

根据InternLM2技术报告提供的模型参数数据，以及KV Cache空间估算方法，以FP16为例，在batch-size为16、输入512 tokens、输出32 tokens的情境下，仅20B模型就会产生10.3GB的缓存。该过程在新版本的LMDeploy中是自动进行的，无需用户操作。 TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎，它的主要功能包括：LLaMa 结构模型的支持，continuous batch 推理模式和可扩展的 KV 缓存管理器。

LMDeploy 量化部署 LLM 实践

weixin_44217506的博客

06-18

770

支持多模态模型：这一节内容其实比较简单，需要理解的知识点都是LMdeploy部署有关，更多的是希望同学们能够感受到LMdeploy部署的操作便捷性和输出的性能。

LMDeploy 量化部署 LLM-VLM 实践作业

QIUYEzi_LR的博客

04-24

417

是一个针对深度学习模型和数据集的在线托管社区。如果你有数据集或者模型想对外分享，可以托管在HuggingFace。如果您想获取他人开源的的数据集或模型，也可以在HuggingFace中找到。托管的模型通常采用HuggingFace格式存储，简写为HF格式。但是HuggingFace社区的服务器在国外，国内访问不太方便。国内可以使用阿里巴巴的MindScope社区，或者上海AI Lab搭建的OpenXLab社区，上面托管的模型也通常采用HF(.safetensors)格式。TurboMind。

LMDeploy 量化部署 LLM-VLM 实践

2401_83218582的博客

04-15

393

参考文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md作业一：配置 LMDeploy 运行环境使用命令：studio-conda -t lmdeploy -o pytorch-2.1.2由于环境依赖项存在torch，下载过程比较缓慢，最终结果如下图：安装deployTransformer来直接运行InternLM2-Chat-1.8B模型：运行transformer.py文件中的内容，运行得到对话：进阶作业：设置KV C

书生·浦语-（五）-LMDeploy量化部署LLM实践

ppyyds的博客

04-23

323

部署：指的是将开发完毕的软件投入使用的过程人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程· LLM参数量巨大，前向推理inference需要大量计算· GPT3有175B，20B的算小模型了· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+· 20B模型kv缓存需要显存10G，合计需要50G显存· RTX 4060X消费级独显，显存8G· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。

书生·浦语--（五）LMDeploy 量化部署 LLM-VLM 实践（基础作业）

ppyyds的博客

04-23

859

W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。两种不同的设置反应在不同的显存使用上，对于--cache-max-entry-count = 0.01来说基本不使用额外显存存储KV参数，显存的消耗跟载入一个1.8B模型的参数量基本相同，但此时推理速度大大降低。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。

LMDeploy 量化部署 LLM&VLM实战--全部作业

taotao_zhang1的博客

04-12

287

一、基础作业部分配置lmdeploy运行环境，下载internlm-chat-1.8b模型以命令行方式与模型对话二、进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）以API Server方式启动 lmdeploy，开启 W4A16量化，调整KV Cache的占用比例为0.4，分别使用命令行客户端与Gradio网页客户端与模型对话。（优秀学员）使用W4A1

【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

04-19

924

本篇笔记内容主要分为模型部署理论进行介绍。从量化、剪枝、知识蒸馏方面引入。主要对LMDeploy框架支持的模型、安装过程、base|chat对话|Lite量化等进行介绍，欢迎大家交流学习！

嵌入式通信协议：UART简明学习笔记

weixin_73867577的博客

10-31

747

学习UART串口的简明学习笔记

[自用，更新自day5]瑞吉外卖代码及笔记

lapiii的博客

11-01

807

当使用ThreadLocal维护变量时，ThreadLocal为每个使用该变量的线程提供独立的变量副本，所以每一个线程都可以独立地改变自己的副本，而不会影响其它线程所对应的副本。Mybatis Plus公共字段自动填充，也就是在插入或者更新的时候为指定字段赋予指定的值，使用它的好处就是可以统一对这些字段进行处理，避免了重复代码。因为在分页查询的Dish的records(菜品记录中)，只有这个菜品所属的categoryId，但是我们需要分页的时候展示的是菜品名字。

点云学习笔记3——读取点云文件、进行统计滤波/直通滤波后可视化

qq_64095888的博客

10-29

201

【代码】点云学习笔记3——读取点云文件、进行统计滤波后可视化。

嵌入式通信协议：MODBUS简明学习笔记