A10服务器使用vllm推理框架成功运行Qwen3大模型

最新推荐文章于 2025-05-27 22:23:40 发布

福小白

最新推荐文章于 2025-05-27 22:23:40 发布

阅读量556

点赞数 2

文章标签：服务器运维

本文链接：https://blog.csdn.net/qq_38773993/article/details/148170905

版权

1.下载Qwen3大模型：

git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境：

python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

pip install vllm

在这里插入图片描述

4.启动vllm服务

CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \
        --model /mnt/workspace/Qwen3-1.7B \
        --served-model-name qwen3 \
        --gpu-memory-utilization=0.85 \
        --tensor-parallel-size 1 \
        --trust-remote-code

注意以下几点：
（1）如果不指定端口，则vllm默认端口是8000；
（2）参数gpu-memory-utilization必须加上，不然可能会报oom显存不足的错误；
（3）tensor-parallel-size的个数，取决于使用的GPU数量。
启动需加载1-2分钟左右，启动结果如下：
在这里插入图片描述

5.查询大模型

curl http://localhost:8000/v1/models

查询到名字为qwen3的模型：
在这里插入图片描述

6.调用大模型服务

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "qwen3",
  "messages": [
    {"role": "user", "content": "介绍一下你自己"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 128,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

返回结果：
在这里插入图片描述

7.显卡使用情况

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

福小白

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Yi 零一万物 大模型 githu页面

强化学习曾小健

06-28

1262

🤖 Yi 系列模型是01.AI从零训练的下一代开源大语言模型。🙌 Yi 系列模型是一个双语语言模型，在3T 多语言语料库上训练而成，是全球最强大的大语言模型之一。Yi 系列模型在语言认知、常识推理、阅读理解等方面表现优异。例如，Yi-34B-Chat 模型在 AlpacaEval Leaderboard排名第二仅次于 GPT-4 Turbo，超过了 GPT-4、Mixtral 和 Claude 等大语言模型（数据截止至 2024 年 1 月）。Yi-34B 模型在（预训练）与。

开源模型应用落地-qwen1.5-7b-chat与sglang实现推理加速的正确姿势（二）

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

04-09

1万+

优化sglang参数，让它跑得更快更顺畅

参与评论您还未登录，请先登录后发表或查看评论

基于ACK使用vLLM部署Qwen模型推理服务

11-26

1470

本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例，演示如何在ACK中使用vLLM（Versatile Large Language Model）框架部署通义千问（Qwen）模型推理服务。是阿里云基于Transformer大语言模型研发的40亿参数模型，模型在超大规模的预训练数据（预训练数据类型多样且覆盖广泛，包括大量网络文本、专业书籍、代码等）上进行训练得到。更多模型信息，请参见。是一个高效易用的大语言模型推理服务框架，vLLM支持包括通义千问在内的多种常见大语言模型。

大模型推理框架概述

吃果冻不吐果冻皮

10-07

3434

Text Generation Inference（TGI）是 HuggingFace 推出的一个项目，作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具，旨在支持大型语言模型的优化推理。FasterTransformer 库使用此参数对所有底层算法进行实时基准测试，并为模型的参数和您的输入数据（注意层的大小、注意头的数量、隐藏层的大小）选择最佳的一个。对于自注意力块和前馈网络块，FT 按行拆分第一个矩阵的权重，并按列拆分第二个矩阵的权重。

LLM和多模态模型高效推理实践

2301_81888214的博客

08-15

923

LLM和多模态模型高效推理实践

【无需服务器】零代码微调Qwen3，非常详细收藏这一篇就够！

m0_63171455的博客

05-04

903

嗨喽，今天小编将为大家带来 MS-Swift 的大模型微调教程。ms-swift 是魔搭社区提供的大模型与多模态大模型训练部署框架，现已支持 450 + 大模型与 150 + 多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。模型开发者可以在 ms-swift 框架中一站式完成围绕大模型的各类需求。

LLM 大模型学习必知必会系列(三)：LLM和多模态模型高效推理实践

2401_85378759的博客

08-04

883

LLM 的推理流程：多模态的 LLM 的原理：代码演示：使用 ModelScope NoteBook 完成语言大模型，视觉大模型，音频大模型的推理所有资料 ⚡️ ，朋友们如果有需要全套《》，👉[CSDN大礼包（安全链接，放心点击）]()👈环境配置与安装。

大模型推理框架

weixin_44245188的博客

04-02

868

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。PagedAttention 是 vLLM 的核心技术，它解决了LLM服务中内存的瓶颈问题。传统的注意力算法在自回归解码过程中，需要将所有输入Token的注意力键和值张量存储在GPU内存中，以生成下一个Token。这些缓存的键和值张量通常被称为KV缓存。

DeepSpeed-Inference 分布式推理模型部署(基础)

欢迎来到云逸的博客频道

04-15

1114

采用DeepSpeed-Inference 张量并行方式分布式部署 qwen2.5 7b 模型。并且验证整个流程

AIBrix 深度解读：字节跳动大模型推理的云原生实践

bytedanceospo的博客

03-10

1249

随着 LLaMA、DeepSeek、Qwen 等开源大模型的快速崛起，企业在模型部署的灵活性、成本与自主可控性方面迎来了新的机遇。然而，仅靠对模型本身的优化尚不足以将这些模型部署成高效且可扩展的生产级 API。大模型推理往往引入诸多独特的系统挑战，如 GPU 弹性伸缩指标的非线性问题，长尾模型和精调模型流量过低的问题，多机推理时的角色编排以及 GPU 卡型的异构管理等，都对易用性和成本控制提出了更高要求。

大模型分布式推理和量化部署

沐雪架构师

04-09

857

所以我们需要大于14GB的显存。注意14GB单纯是大模型启动所占的显存大小，还有推理过程的输入和输出，kv缓存，推理框架运行等，都需要消耗显存。70亿个参数×每个参数占用2个字节=14GB。

阿里云大模型ACP认证模拟考试（三）

davidkorhenn的博客

04-17

1308

【摘要】：在阿里云大模型高级工程师 ACP 认证暂无真题题库的现状下，模拟题具有重要意义。其依照真实考试设计，涵盖题型、题量与分值分布，助力考生熟悉考试框架，合理分配答题时间精力，提升效率。同时，模拟题紧扣官方课程，能帮助考生精准定位知识盲点，如大模型架构原理和通义千问应用实践等重点内容，以便针对性完善知识体系。此外，通过练习模拟题，考生可掌握不同题型的解题思维与技巧，快速洞察复杂题目本质，提高答题准确率。

qwen qwq 部署

03-08

#### 使用 vLLM 部署 Qwen2 模型为了使用 vLLM 来部署 Qwen2 模型，可以按照如下方式操作。首先，需确保已将魔搭下载的模型放置于指定路径 `/home/yangfan/gpt/qwen/models` 下，并将其挂载至容器内的 `/data` 目录...

Netty应用：从零搭建Java游戏服务器网络框架

shangjg3的博客

05-26

280

本文介绍了基于Java和Netty框架构建游戏服务器网络框架的技术方案。项目采用Maven管理，支持TCP/UDP双协议，包含完整的服务端和客户端实现。核心部分使用Netty处理网络通信，通过自定义消息处理器实现业务逻辑分发。服务端实现了TCP/UDP服务器的启动配置，客户端完成连接和消息交互功能。文章详细展示了代码结构、核心类实现以及运行测试方法，为游戏网络开发提供了可扩展的基础框架，开发者可在此基础上进一步优化功能。

wordpress上传图片时出现服务器无法处理图片

jianzhanyes的博客

05-23

657

检查服务器配置：如果是使用 Nginx，可在 nginx.conf 文件中添加 client_max_body_size 64M;压缩图片文件：在上传前使用图片压缩工具(如 TinyPNG)优化图片大小，控制图片宽度在 2500px 以内。检查文件夹权限：确保 /wp-content/uploads/ 目录的权限为 755，文件权限为 644。upload_max_filesize 和 post_max_size 设置为 64M 或更高。等待并重试：有时服务器繁忙是暂时的，等待几分钟后重新上传图片。

2025fic决赛服务器+路由器复盘wp

2301_80780402的博客

05-26

792

简单复盘一下，有问题欢迎批评指正

黑龙江云前沿-服务器托管

yunqianyan的博客

05-26

553

专业的运维团队为您提供全方位的运维管理，7×24 小时实时监控服务器流量，及时优化调整，确保您的业务在高峰时段依然保持流畅，让您轻松享受高效运营，专注于核心业务发展。：服务器托管于高可用性的基础设施之上，选用顶级硬件设备，具备冗余设计，确保系统运行稳定，提供 99.99% 的正常运行时间保证，让您的业务无时无刻不处于最佳状态，从容应对各种业务高峰。我们拥有一支专业的技术团队，凭借丰富的行业经验和专业技能，为您提供全方位的服务器托管服务，并可根据您的特定需求，定制个性化的解决方案。

如何选择服务器机房托管服务？

wanhengidc的博客

05-23

339

托管服务的质量和性能也是企业在选择IDC服务商时必须考虑得因素，这会影响到服务器的性能和网络带宽的稳定性，所以，企业最好实地考察一下其数据中心的设施条件，查看数据中心的网络连接质量与稳定性，确定电力供应和空调系统等物理设备的完善，保证服务器有着良好的存放环境。首先，企业在进行选择服务器机房托管之前，要明确自身业务类型和所需的服务器配置，根据自身的预算来选择相应的托管服务提供商，同时，选择距离目标用户群体比较近的数据中心，能够帮助用户降低网络的延迟度，提高用户访问数据信息的速度。

功耗仅4W！迷你服务器黑豹X2（Panther X2）卡刷、线刷刷入Armbian（ubuntu）系统教程