【bug解决】vllm部署qwen

Yanc_L

已于 2024-06-23 23:42:56 修改

阅读量447

点赞数 7

文章标签： bug

于 2024-06-23 23:41:49 首次发布

本文链接：https://blog.csdn.net/qq_41502855/article/details/139908706

版权

参考：LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]-腾讯云开发者社区-腾讯云

首次尝试vllm部署qwen遇到的一些问题

out of memeory

# 创建兼容 OpenAI API 接口的服务器
!python -m vllm.entrypoints.openai.api_server --host 127.0.0.1 --port 6006 --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat --served-model-name Qwen1.5-7B-Chat --gpu-memory-utilization=0.5 --max-model-len=2048

{"detail":"Not Found"}

接口创建成功以后，以下接口并不是直接点击打开食用的（误以为和streamlit一样了）

而是通过直接在shell发送请求

curl http://127.0.0.1:6006/v1/completions     
-H "Content-Type: application/json"     
-d '{
        "model": "Qwen1.5-7B-Chat",
        "prompt": "明天是周一，不想上班怎么办",
        "max_tokens": 100,
        "temperature": 0
    }'

text中为模型返回结果：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yanc_L

关注关注

7
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LLM - 使用 vLLM 部署 Qwen2-VL 多模态大模型 (配置 FlashAttention) 教程

Mystra

09-26

1638

vLLM 用于大语言模型(LLM) 的推理和服务，具有多项优化技术，包括先进的服务吞吐量、高效的内存管理、连续批处理请求、优化 CUDA 内核以及支持量化技术，如GPTQ、AWQ等。FlashAttention 是先进的注意力机制优化工具，通过减少内存访问和优化计算过程，显著提高大型语言模型的推理速度。

vllm 部署qwen2.5-7b；opeanai 接口访问、requests接口

weixin_42357472的博客

09-19

409

参考： https://qwenlm.github.io/zh/blog/qwen2.5/ https://huggingface.co/Qwen/Qwen2.5-7B-Instruct下载： vllm部署：流式非流式

参与评论您还未登录，请先登录后发表或查看评论

VLLM部署通义千问

oqzuser12345678999q的博客

06-20

995

vllm 版本 4.0.0镜像 vllm github 官方镜像openai api 方式出现的问题通过 chat-template 聊天模板解决。

vllm 加速模型推理报错

QiwzDeBLOG的博客

04-16

1359

使用VLLM加速大模型推理报错

streamlit 搭建LLM交互应用

weixin_42924890的博客

08-16

1082

本文主要讨论使用搭建一个可调节核心参数的LLM对话式应用。页面交互采用streamlit，模型推理部分采langchain和vllm两种部署推理框架。

VLLM启动报错：ValueError: The model‘s max seq len (19008) is larger than the maximum number of tokens tha

h1773655323的博客

04-24

1982

ValueError: The model's max seq len (19008) is larger than the maximum number of tokens that can be stored in KV cache (3840). Try increasing `gpu_memory_utilization` or decreasing `max_model_len` when initializing the engine.

vllm在Linux安装遇到的问题

Q794469的博客

05-10

1357

pip install vllm 安装。将vllm版本降至0.2.0即可。后来发现是 cuda版本太低。但发现安装到一半走不动了。

fixture 'model' not found，怎么解决

A_Tu_daddy的博客

04-08

7055

跑代码，第一个错误就是 fixture ‘model’ not found，然后查了一下，是test方法惹的祸，不要在方法中出现%test%之类的标识符（%代表在test之前或者之后加字母也不行），可以使tst，我改成tst之后就好了。 ...

nginx 配置少一个‘/‘引起 “detail“:“Not Found“

heidyxlw的博客

06-29

3407

nginx 配置少一个'/'引起 "detail":"Not Found"

初识FastAPI

Note

12-03

3259

一个简单的栗子 from fastapi import FastAPI app = FastAPI() @app.get("/") async def root(): return {"message": "Hello World"} FASTAPI继承Starlette，因此在Starlette中的所有可调用的对象在FASTAPI中可以直接引用编写步骤步骤一：导入FastAPI from fastapi import FastAPI 步骤二：创建FastAPI实例

vLLM部署Qwen1.5-32B-Chat

不负热爱

04-12

3422

使用大模型推理和服务部署框架vLLM部署Qwen1.5-32B-Chat，并记录在这过程中遇到的问题及解决方法

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-12

2万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct和Lora权重

使用Django REST farmwork的router报错“detail”：“not found”

m0_60599550的博客

10-27

1174

原因：路由设置orders与orders/companies冲突

【vLLM】ModuleNotFoundError: No module named ‘vllm.model_executor.layers‘

baidu_32500247的博客

06-27

899

vLLM install from source, bug fixed

基于langChain-ChatGLM应用实践:遇到接口返回{“detail“:“Not Found“}

疯癫的老码农的博客

09-18

1384

langChain-ChatGLM对应的节点会存在多个，因此在两个模块调用的过程中是由langChain-ChatGLM将自身的域名地址作为参数传递过去的，经过仔细排查发现调用接口的url中在域名与具体接口之间多了一个斜杠（/）导致没有调用成功。langChain-ChatGLM之间是通过http进行调用的，在两个模块进行联调的时候，发现langChain-ChatGLM返回报文。调用接口执行完成之后，没有达到期望的效果。

LLama3最新医疗大模型安装与应用指南

2301_76161259的博客

05-17

1771

医疗领域的开源 LLM：OpenBioLLM-Llama3，在生物医学领域优于GPT-4、Gemini、Meditron-70B、Med-PaLM-1、Med-PaLM-2OpenBioLLM-Llama3有两个版本，分别是70B 和 8BOpenBioLLM-70B提供了SOTA性能，为同等规模模型设立了新的最先进水平OpenBioLLM-8B模型甚至超越了GPT-3.5、Gemini和Meditron-70B。

Qwen-VL大模型LoRA微调、融合及部署

songyang66的博客

07-19

2031

Qwen-VL大模型LoRA微调、融合及部署

qwen-7b 部署

12-22

qwen-7b部署是一项复杂的流程，需要经过多个步骤和严格的规划。首先，需要确定部署的目标和需求，明确要部署的系统或应用程序的功能和性能要求。其次，需要准备好适当的硬件设备和软件工具，确保系统能够正常运行并满足需求。接下来，需要进行系统配置和安装，包括网络设置、数据库配置、安全设置等，确保系统能够稳定运行并保护数据安全。然后，需要进行系统测试，包括功能测试、性能测试、安全测试等，确保系统能够正常运行并满足用户需求。最后，需要进行系统上线和监控，确保系统能够稳定运行并及时发现和解决问题。在整个部署过程中，需要密切合作和沟通，确保各个部门和团队能够紧密配合，顺利完成部署任务。同时，还需要及时记录和更新部署文档，以便日后维护和升级。总之，qwen-7b部署是一项需要严谨规划和细致执行的工作，只有确保每一个环节都得到认真对待，才能够顺利完成部署任务。