第五课：LMDeploy 大模型量化部署实践

最新推荐文章于 2024-08-08 18:03:40 发布

zhenmazhu

最新推荐文章于 2024-08-08 18:03:40 发布

阅读量439

点赞数 10

文章标签： linux windows 运维

本文链接：https://blog.csdn.net/weixin_38043453/article/details/135612915

版权

1 环境配置,尝试手工搭建个，昨天第四课的就是手工搭建成功了，今天再试试。
## watch vgpu-smi
conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy

conda install pytorch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 pytorch-cuda=12.1 -c pytorch -c nvidia

pip install packaging

# 使用 flash_attn 的预编译包解决安装过慢问题
pip install /share/wheels/flash_attn-2.4.2+cu118torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
pip install lmdeploy[all]
python -c '''import lmdeploy'''

2、下载和转换模型

cd ~
mkdir abelezm && cd abelezm
lmdeploy convert internlm-chat-7b  /share/temp/model_repos/internlm-chat-7b/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhenmazhu

关注关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
第五课：LMDeploy 大模型量化部署实践

1 环境配置,尝试手工搭建个，昨天第四课的就是手工搭建成功了，今天再试试。# 使用 flash_attn 的预编译包解决安装过慢问题。
复制链接

扫一扫

【第5节】LMDeploy 大模型量化部署实践

熊猫小妖的AI世界

04-24

1201

视频文档作业lmdeploy官方文档OpenXLab个人感觉camp2讲解的没有第一次的内容好，都是照着文档跑一遍，基础内容也没有啥深度(也可能是我水平太低哈，哈哈)。补充观看之前1.0版本的讲解吧文档视频基础作业（结营必做）配置 LMDeploy 运行环境以命令行方式与 InternLM2-Chat-1.8B 模型对话进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）

本地部署开源大模型的完整教程LangChain + Streamlit+ Llama

09-23

本地部署开源大模型的完整教程 LangChain + Streamlit+ LLaMA 本教程旨在指导开发人员如何在本地部署开源的大型语言模型（LLM），并使用LangChain、Streamlit和LLaMA等工具来创建交互式应用程序。以下是教程中涉及...

1 条评论您还未登录，请先登录后发表或查看评论

2024山东大学软件学院创新项目实训（6）使用恒源云和LMDeploy对大模型进行部署

soulverzz的博客

04-09

434

2024山东大学软件学院创新项目实训（6）使用恒源云和LMDeploy对大模型进行部署

【书生·浦语】大模型实战营——第五次课程作业

wudongliang971012的博客

01-15

534

运行上述命令后，会在当前目录新建workspace文件夹，里面存放着转化后的权重文件。以开始以为运行命令参数是 l。

揭秘：仅用一块3090，轻松高效部署InternLM-20B大模型！

fengdu78的博客

11-10

922

9 月 20 日，上海人工智能实验室推出了书生·浦语大模型（InternLM）200 亿参数版本 InternLM-20B。它具备优异的综合性能，以不足三分之一的参数量，测评成绩达到了 Llama2-70B 的水平。200 亿参数，大约占 40G 显存。意味着，要能推理起来 InternLM-20B，不得不租用价格高昂的 A100 服务器。有没有经济一些的方法呢？答案是有的。那就是低比特量化和推理...

LMDeploy模型部署：从下载到服务化

qq_56997043的博客

04-19

425

我们可以通过引入`lmdeploy`的`pipeline`模块，并创建一个`pipeline`对象来运行模型。此外，我们还可以通过`TurbomindEngineConfig`向LMDeploy传递额外的参数，如调整KV Cache的占用比例。LMDeploy作为一个高效的模型部署工具，不仅简化了从下载到服务化的全过程，还提供了模型量化、API封装等一系列优化手段。通过本文的介绍，希望你能对LMDeploy有一个基本的了解，并在自己的项目中尝试使用它。## **1. LMDeploy模型下载与使用**

第五节笔记：LMDeploy 大模型量化部署实践

Kerin的博客

02-17

627

大语言模型推理是典型的访问密集型，因为是decoder only的架构，需要token by token的生成，因此需要频繁读取之前生成过的token。参数用FP16半精度也就是2字节，7B的模型就大约占14G。这个量化只是在存储时做的，在推理时还要反量化回FP16.w4a16意思是参数4bit量化，激活时是16bit。不用等一个batch的请求全部执行完才退出。量化降低显存需求量，提高推理速度。3.动手实践-安装、部署、量化。2.LMDeploy简介。

第五课-LMDeploy 大模型量化部署实践

sunney的博客

01-13

1121

LMDeploy 由MMDeploy和MMRazor团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。高效推理引擎 TurboMind：基于 FasterTransformer，我们实现了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。**交互推理方式：**通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。多 GPU 部署和量化。

第五次课：LMDeploy 大模型量化部署实践

weixin_48339493的博客

01-22

467

而执行本命令需要添加本机公钥，公钥添加后等待几分钟即可生效。ssh 端口号就是下面图片里的 33087。-p <你的ssh端口号>

【书生·浦语大模型实战营】第5节：LMDeploy 大模型量化部署实践（笔记版）

zhenzhu2882的博客

02-20

456

【书生·浦语大模型实战营】第5节：LMDeploy 大模型量化部署实践（笔记版）

基于pytorch的模型剪枝+模型量化+BN合并+TRT部署（cifar数据）

03-06

本项目聚焦于四个关键技术：模型剪枝、模型量化、批归一化（BN）层的合并以及使用TensorRT进行部署，这些技术都是针对PyTorch框架进行的。下面将详细解释这四个方面的知识。 1. **模型剪枝**：模型剪枝是一种优化...

大模型-大模型部署基础认知视频

03-16

在IT行业中，大模型的部署是一项关键任务，它涉及到如何将训练好的大型人工智能模型应用到实际生产环境，以便为用户提供高效、稳定的服务。本视频课程“大模型-大模型部署基础认知”旨在深入讲解这一过程，帮助学习...

05-14 周二 LMdeploy 部署量化和实战

05-16

内容为使用lmdeploy进行部署，量化和推理的整体描述，并且基于服务器进行了实践

深度学习实践-模型部署优化实践

07-30

本实践主要关注如何将深度学习模型，特别是YOLO（You Only Look Once）模型，部署到生产环境中，并进行性能优化。下面将详细讨论相关知识点。首先，YOLO是一种实时目标检测算法，它在保持高检测速度的同时，还能...

linux 目录详解

zhanglinlang的专栏

08-08

548

名称作用 / 根目录系统的起点，跟目录下只放目录不要直接放文件 /bin 存放所有用户都可以使用的Linux基本操作命令（如ls、cp、mkdir等）。这些命令通常是用于系统管理和日常操作的常用工具 /sbin 存放系统管理相关的二进制文件，这些文件通常是系统管理员使用的命令，如fdisk、shutdown、mount等。与/bin目录不同的是，/sbin目录中的命令普通用户通常只能查看而不能执行。 /boot 存放引导相关文件，如Linux内核文件（vmlinuz）和引导装载

Linux安全与高级应用（四）深入探索MySQL数据库：安装、管理与安全实践

洛秋的博客

08-07

1426

Linux：作为操作系统，提供稳定的运行环境。Apache：作为Web服务器，处理HTTP请求。MySQL：作为数据库管理系统，存储和管理数据。：作为脚本语言，生成动态网页。LAMP平台的优势在于其成本低廉、可定制性强、易于开发、方便易用且安全稳定。这使得LAMP成为许多企业和开发者的首选平台。通过以上步骤，我们完成了LAMP平台的部署及其主要组件的配置和测试。LAMP平台的搭建不仅为Web开发提供了一个强大的环境，同时也展现了其在成本和效率上的优势。

如何解码Linux下事件响应工具evtest的时间戳