vLLM+Nginx+4090打造DeepSeek-R1-32B高可用大模型集群，助力企业拥抱AI时代

最新推荐文章于 2025-04-16 10:23:29 发布

Python_金钱豹

最新推荐文章于 2025-04-16 10:23:29 发布

阅读量1.5k

点赞数 21

文章标签： nginx 人工智能运维算法深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/Python_cocola/article/details/145887857

版权

今年是 DeepSeek-R1 系列模型深耕各行各业、助力企业全面拥抱 AI 变革的关键之年！同时，这也将是智能体爆发的一年！无论是哪种智能体，其背后都离不开一个稳定可靠的大模型集群作为支撑。然而，并非每个企业都拥有充裕的资金，因此，如何搭建一个既经济又可靠的大模型集群，成为了中小企业面临的重要课题。

经济实惠又强壮的选择：

DeepSeek-R1-32B（量化版） + Nginx + vLLM + 4090 GPU

为确保系统的高可用性，至少需要配置两块 4090 GPU组成高可用模型实例集群。同时，在应用端设置限流机制，当模型负载达到上限时，应用系统向用户提供友好的提示。

服务器繁忙，请稍后再试。

总体部署方案

硬件配置：

NVIDIA RTX 4090显卡2块（至少）

内存256GB

软件配置：

Docker version 27.0.3

CUDA Version: 12.4

Ubuntu 22.04

DeepSeek-R1-Distill-Qwen-32B-AWQ

Linux下vLLM的安装

实现目标：确保每个 vLLM 的 Docker 容器独占一块 4090 GPU，并配置独立端口。保证 Docker 启动时 vLLM 服务自动启动，停止 Docker 时 vLLM 服务也随之停止。

执行以下命令创建与启动Docker：

sudo docker run -dp 9990:6666 --runtime=nvidia --gpus device=0 --name DeepSeek-R1-1 -v /DeepSeek-R1-Distill-Qwen-32B-AWQ:/DeepSeek-R1-Distill-Qwen-32B-AWQ vLLM/vLLM:0.7.3

第二个Docker可以启9991端口，选择GPU的1号卡，名字DeepSeek-R1-2，具体命令大家自己写就可以。

Nginx配置

实现目标：负载所有vLLM提供的模型接口，实现模型高可用配置。

Nginx配置如下：

upstream deepseek_r1_api {`    `random;`    `server 192.168.1.10:9990 ;`    `server 192.168.1.11:9991 ;``}``   ``server {`    `listen       80 ;`    `server_name  _;`    `charset utf-8;`    `access_log  /nginx/deepseek_llm.log main;``   `    `location / {`        `proxy_pass http://deepseek_r1_api;`    `}``}

请求Base URL示例：

http://localhost/v1

请求cURL示例：

 `curl --location --request POST 'http://localhost/v1/chat/completions' \``--header 'Content-Type: application/json' \``--data-raw '{`    `"model": "deepseek-r1-32b-awq",`    `"messages": [`       `{"role": "user", "content": "请介绍北京"}`          `],`    `"temperature": 0.6,`    `"max_tokens": 4096,`    `"stream":true`  `}'`

Open WebUI远程验证

下载与安装

地址：https://github.com/open-webui/open-webui

找到“If Ollama is on your computer, use this command:”提示语，并复制命令，之所以没有选择只支持OpenAI API 的Docker，是因为你还可以通过Ollama接入模型。

注：我们采用Docker环境部署，本地环境请自行安装。

将复制的命令，在一个新的命令提示符窗口下打开。

安装完成后可以在Docker列表中看到Open WebUI的条目。

2、Open WebUI+DeepSeek-R1

Open WebUI地址：http://localhost:3000

拷贝地址在浏览器中打开，或是点击Docker Open WebUI条目中红框圈住的部分。

打开后的Open WebUI界面如下：

点击“开始使用”，完成管理员账号的创建，这里采用OpenAI API方式配置远程模型，配置完就可以进入聊天界面。

选择“管理员面板”-“外部连接”-“OpenAI API”，添加外部地址。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述