开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（七）

开源技术探险家

已于 2024-03-14 17:48:25 修改

阅读量3.4k

点赞数 411

分类专栏：开源模型-实际应用落地 # 开源大语言模型-vllm推理加速的正确姿势文章标签：深度学习 AIGC 性能优化

于 2024-01-14 09:30:00 首次发布

本文链接：https://blog.csdn.net/qq839019311/article/details/135550666

版权

开源模型-实际应用落地同时被 2 个专栏收录

224 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

开源大语言模型-vllm推理加速的正确姿势

46 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在qwen-7b-chat与vllm中实现推理加速，特别是针对单机多GPU环境的优化。通过并行推理、调整vllm配置、安装gevent以及优化gunicorn设置，提升服务性能和并发处理能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

通过前面几章的实践，相信大家已经成功地搭建了一个功能齐全且性能良好的vllm API服务。现在，在充裕的服务器资源配置下，接下来可以继续进行一些优化工作。

二、术语

2.1.并行推理

是指在深度学习中使用多个计算设备（如GPU或TPU）同时进行推理任务的过程。

2.2. Gevent

是一个基于协程的Python网络库，通过利用协程的非阻塞特性，可以处理大量并发请求而无需创建多个线程或进程。

三、技术实现

以下内容针对单机多卡的情况

3.1. 查看GPU个数

nvidia-smi --query-gpu=count --format=csv,noheader

3.2. 优化vllm配置

python -m vllm.entrypoints.api_server  --model  /data/model/qwen-7b-chat  --swap-space 26 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

开源技术探险家

关注关注

411
点赞
踩
372

收藏

觉得还不错? 一键收藏
40
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（一）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

01-10

2万+

qwen-7b-chat集成vllm，流式输出

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（九）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

03-04

2438

qwen1.5-7b-chat集成vllm，构建与OpenAI-API兼容的API服务

40 条评论您还未登录，请先登录后发表或查看评论

大模型推理：vllm多机多卡分布式本地部署

m0_74824755的博客

12-28

7499

我是一台机器启动了一个docker，将docker当作一个节点，在docker里面执行ray start --head --port=6379，将另一台机器的docker作为worker节点，并加入到ray cluster中，如果机器间的通信没有问题，worker节点在几秒内就能加入集群。值得注意的是多机多卡部署的推理框架，也适用于单机多卡，单机单卡，这里不过多赘述。确保head节点的IP与指定的通信网卡的IP一致，同时，检查/etc/hosts里面的IP对应的主机名与docker的主机名是一致的。

vLLM实战：单机多卡大模型推理部署指南

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

11-21

1万+

通过结构化输出将模型生成的结果组织为易于解析和处理的数据格式。使得后续的数据处理、分析和集成变得更加高效和灵活，便于开发者和应用程序自动提取关键信息，实现更复杂的功能和交互。

语言大模型qwen1.5全流程解析：微调，量化与推理

weixin_42479327的博客

06-07

4185

qwen1.5用法与qwen差异很大，代码合入了transformers库中，使用风格变得统一，这种标准化是以后大模型发展的一个趋势吧，就像tokenizer.apply_chat_template统一prompt一样。仅过去一年时间，这个领域的许多技术已经趋向成熟，发展速度真是太快啦，对于我们来说变方便了，同时门槛也变低，可以让更多人进入大模型领域。但从另一个角度看，当大模型研发，部署都能通过已有技术简单高效完成，那算法人员存在的意义又是什么呢，技术搬运工 or 高级调参侠？

【零基础】基于vLLM 搭建DeepSeek-R1-Distill-Qwen-7B【最简】

caoyongsheng的博客

04-05

1037

大模型落地应用离不开高效推理框架的支持，vLLM以其卓越的性能在众多框架中脱颖而出。本文将带你深入探索如何使用vLLM框架部署DeepSeek-R1-Distill-Qwen大语言模型。一、vLLM框架特性解析1、高效内存管理在大模型推理中，内存管理至关重要。vLLM独创的PagedAttention算法，如同为显存空间安排了一位智能管家。它借鉴操作系统虚拟内存管理机制，实现了KV缓存的动态分页管理。

【实践总结】vllm多卡推理

qq_41502855的博客

07-28

8449

多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境：2* A100 40G。模型：qwen2-7B。

使用vLLM部署DeepSeek-R1-Distill-Qwen-7B模型：从环境配置到高效推理

m0_59163425的博客

03-04

2363

vLLM是一个高效、灵活且易于使用的大语言模型（LLM）推理和服务框架，专注于优化大规模语言模型的推理性能。vLLM是一个专注于大语言模型推理的高性能框架，通过创新的PagedAttention 机制和深度优化，显著提升了推理效率和内存利用率。无论是工业级应用还是学术研究，vLLM 都提供了一个强大且灵活的工具，帮助用户更高效地部署和运行大语言模型。

使用 vllm 本地部署 cohere 的 command-r

engchina的专栏

04-24

1159

使用 vllm 本地部署 cohere 的 command-r

【Qwen2部署实战】部署高效AI模型：使用vLLM进行Qwen2-7B模型推理

寻道AI，探索AI无限可能！

07-08

8212

在当今快速发展的人工智能领域，大型语言模型（LLMs）已成为推动自然语言处理（NLP）任务的关键力量。这些模型以其强大的理解和生成文本的能力而闻名，但同时也因其对计算资源的高需求而备受关注。vLLM作为一个创新的解决方案，旨在简化LLMs的部署流程，提高效率，降低资源消耗。本文将详细介绍如何利用vLLM部署Qwen2-7B模型，并探讨其在离线推理、API服务以及多卡分布式部署中的应用。

Qwen1.5-72B-Chat用vllm部署【踩坑记录经验贴】

weixin_43744732的博客

05-16

4627

坑：–model这里需要填你模型下载下来的位置。删了还是不足：pip install --no-cache-dir somepackage。坑：如果服务器开了防火墙记得开对应的端口。去到root目录下把cache清掉。如果没有可以用阿里云的pip镜像。如果自己有代理科学上网可以这样。或者使用python验证。这里返回true就可以。

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（四）_vllm qwen 推理格式不对

2401_83621499的博客

04-14

943

经过前面三篇的实施，相信你已经顺利完成了AI服务的功能性需求。现在，我们进入了考虑非功能性需求的阶段。作为一个公共服务，安全性是至关重要的。通过对安全性进行设计，我们可以提升软件对潜在威胁和安全漏洞的防护能力，确保用户数据和系统的安全。

本地部署chat-gpt4模型

03-17

<think>嗯，用户现在问的是如何在本地部署ChatGPT-4模型。首先，我需要明确目前的情况。根据我所知，OpenAI并没有开源GPT-4的模型权重或架构细节，所以用户可能误解了本地部署的可能性。可能需要先澄清这一点，避免用户产生错误期望。接下来，用户可能是想在自己的服务器或者本地环境中运行类似GPT-4的模型，可能是出于隐私、数据安全或成本控制的考虑。这时候，我应该提供替代方案，比如使用开源的LLM模型，如LLaMA、Falcon或者Alpaca，这些模型可以在本地部署。然后，我需要考虑用户的技术背景。如果他们不熟悉机器学习框架，可能需要推荐更简单的工具，比如Ollama或GPT4All，这些工具简化了本地部署的步骤。对于有一定技术能力的用户，可以介绍Hugging Face的Transformers库，以及如何加载和运行这些模型。另外，用户可能关心性能问题，本地部署需要较强的硬件支持，特别是GPU资源。这里需要提醒他们硬件要求，比如显存大小、内存和存储需求，以及可能的性能瓶颈，比如生成速度较慢。还有，用户可能对如何调用本地模型感兴趣，可能需要给出代码示例，比如使用Transformers库加载模型，或者使用Ollama的API进行交互。同时，需要强调数据隐私的优势，确保用户明白本地处理数据的优点。最后，要指出当前无法真正部署GPT-4的限制，但提供可行的替代方案，并指导用户根据自身情况选择合适的模型和工具。可能还需要比较不同替代模型的优缺点，帮助他们做出决策。</think>--- ### 本地部署类GPT-4模型的技术指南（重要说明：OpenAI的GPT-4**无法**本地部署，以下为替代方案） --- ### 一、核心限制说明 1. **官方限制** - GPT-4是OpenAI的闭源模型，未开放权重下载 - 仅能通过API调用（$0.03/1k输入token，$0.06/1k输出token） 2. **替代方案选择原则** - 优先选择**可商用授权**的开源模型 - 根据硬件条件选择参数量（7B/13B/70B） --- ### 二、硬件要求 | 模型规模 | 最低显存 | 内存 | 存储空间 | |----------|----------|-------|----------| | 7B参数 | 10GB VRAM | 32GB | 15GB | | 13B参数 | 24GB VRAM | 64GB | 30GB | | 70B参数 | 需多卡并行 | 128GB | 140GB | > 建议使用NVIDIA 3090/4090/A100显卡 --- ### 三、部署方案推荐 #### 方案1：LLaMA 2 + Alpaca（Meta官方开源） ```python # 使用Hugging Face Transformers from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "meta-llama/Llama-2-7b-chat-hf" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) inputs = tokenizer("解释量子力学：", return_tensors="pt") outputs = model.generate(inputs.input_ids, max_length=200) print(tokenizer.decode(outputs[0])) ``` #### 方案2：Mixtral 8x7B（MoE架构，接近GPT-3.5水平） ```bash # 使用Ollama工具链 curl -fsSL https://ollama.com/install.sh | sh ollama run mixtral ``` --- ### 四、优化技巧 1. **量化压缩**（降低显存占用） ```python model = AutoModelForCausalLM.from_pretrained( "mistralai/Mixtral-8x7B-v0.1", device_map="auto", load_in_4bit=True # 4位量化 ) ``` 2. **速度提升** ```python # 使用Flash Attention 2 model = AutoModelForCausalLM.from_pretrained( model_name, use_flash_attention_2=True ) ``` --- ### 五、本地API服务化 ```python # 使用FastAPI创建服务 from fastapi import FastAPI from pydantic import BaseModel app = FastAPI() class Query(BaseModel): prompt: str @app.post("/generate") async def generate_text(query: Query): inputs = tokenizer(query.prompt, return_tensors="pt") outputs = model.generate(inputs.input_ids, max_length=500) return {"response": tokenizer.decode(outputs[0])} ``` 启动命令： ```bash uvicorn api:app --host 0.0.0.0 --port 8000 ``` --- ### 六、性能对比参考 | 模型 | 生成速度（tokens/s） | 显存占用 | 中文支持 | |----------------|----------------------|----------|----------| | LLaMA-2-7B | 28.5 | 10GB | ★★☆☆☆ | | Mixtral-8x7B | 17.2 | 20GB | ★★★☆☆ | | Qwen-72B | 8.7 | 36GB | ★★★★☆ | --- ### 关键注意事项 1. **法律合规** - LLaMA 2需申请[官方授权](https://ai.meta.com/resources/models-and-libraries/llama-downloads/) 2. **数据安全** - 建议在隔离网络中部署 - 启用磁盘加密（如LUKS） 3. **替代推荐** - 医疗领域：选用[BioGPT](https://github.com/microsoft/BioGPT) - 中文场景：选用[Qwen-72B](https://modelscope.cn/models/qwen/Qwen-72B-Chat/summary) --- > 注：若需类GPT-4的完整能力，目前仍需使用官方API。本地部署方案在逻辑推理、多轮对话等场景表现仍有差距。