使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

0. 引言

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。

有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

1. lmdeploy 性能

LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型上,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面,TurboMind 4bit 模型推理速度(out token/s)远高于 FP16/BF16 推理。在小 batch 时,提高到 2.4 倍。

### DeepSeek InternLM3-8B-Instruct 模型介绍 DeepSeek InternLM3-8B-Instruct 是一款基于千亿基座模型 GLM-130B 的大型语言模型,经过特定优化和调整以适应不同的应用场景。该模型不仅具备强大的问答、多轮对话功能,还支持代码生成,能够理解和执行复杂的编程任务[^3]。 此版本特别强调了人类意图对齐,即通过有监督微调等方式确保模型输出更贴近用户的实际需求。这种设计使得它非常适合用于教育领域以及各种需要精准理解上下文的应用场景。 ### 使用方法概述 对于希望利用 DeepSeek InternLM3-8B-Instruct 进行开发或研究的人来说,可以借助 `lmdeploy` 工具来进行高效的部署工作。以下是简化的操作指南: #### 安装依赖库 首先安装必要的 Python 库和其他工具链,这一步骤通常包括但不限于 PyTorch 和 Transformers 等常用框架。 ```bash pip install torch transformers lmdeloy ``` #### 下载并加载模型 接着从指定仓库获取目标模型文件,并将其加载至内存中准备后续调用。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("internlm/internlm2_5-7b-chat") model = AutoModelForCausalLM.from_pretrained("internlm/internlm2_5-7b-chat") ``` 注意这里虽然例子给出的是 "internlm2_5-7b-chat" ,但对于具体到 DeepSeek InternLM3-8B-Instruct,则需替换为对应的 ID 或路径[^4]。 #### 构建交互界面 最后构建简单的命令行或者图形化用户接口来接收输入并向用户提供反馈结果。 ```python while True: user_input = input("请输入您的问题:") inputs = tokenizer(user_input, return_tensors="pt") outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"模型回复:{response}") ``` 以上代码片段展示了如何创建一个简易的聊天机器人程序,允许用户与模型实时交流互动。 ### 教程推荐 考虑到国内开发者的需求特点,《开源大模型食用指南》提供了详尽易懂的操作手册,涵盖了从基础环境搭建直至高级特性探索等多个方面。这份文档尤其适合初次接触此类技术的新手阅读学习,其中包含了大量实用技巧和最佳实践案例,有助于加速掌握相关技能[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值