在docker容器中运行vllm部署deepseek-r1大模型

# 在本地部署python环境
cd /app/
python -m venv myenv
# 激活虚拟环境
source /app/myenv/activate
# 要撤销激活一个虚拟环境,请输入:
deactivate


# 进入虚拟环境安装modelscope
pip install modelscope

# 下载大模型(7B为例)
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B  --local_dir /app/deepseek/models/deepseek-7b


# 运行vllm容器,这里直接进入容器bash终端,不直接启动服务
docker run -it --gpus '"device=7"' --shm-size 10.24g\
     -v /app/deepseek/models:/models \
     -p 8000:8000 \
     --ipc=host \
     --name vllm_deepseek \
     --entrypoint /bin/bash \
     vllm/vllm-openai:v0.7.3

# 启动服务
python3 -m vllm.entrypoints.openai.api_server --model /models/deepseek-7b --port 8000 --tensor-parallel-size 1 --served-model-name DeepSeek-R1-7B --gpu-memory-utilization 0.9 --max-model-len 8192 --trust-remote-code --enforce_eager

## 参数说明:
--model 指定模型参数目录
--tensor-parallel-size 指定gpu数
--served-model-name 模型命名
--port 指定端口
--max-model-len 指定大模型的最大输出长度


# 另外起open-webui容器服务
docker run -it --rm -p 8080:8080 \
-v /app/open-webui/data:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
-e ENABLE_OLLAMA_API=False \
--name open-webui\
ghcr.io/open-webui/open-webui:main

测试api:

# 测试api
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "DeepSeek-R1-7B",
        "messages": [
            {
                "role": "user", 
                "content": "你是谁?"
            }
        ]
    }'

open-webui接入openai api

访问http://主机IP:8080

### 启动 DeepSeek-R1-Distill-Llama-70B-Q4 模型 为了启动 `DeepSeek-R1-Distill-Llama-70B-Q4` 模型,需遵循特定的环境准备和操作流程。考虑到该模型的巨大规模(70B参数),对计算资源有较高需求。 #### 环境准备 确保计算机满足最低硬件要求:至少拥有16GB内存和8GB显存[^2]。对于如此大规模的模型,建议使用具备更多GPU显存的专业级设备或云端服务来保障稳定性和效率。 #### 安装依赖项 安装必要的软件包和支持库之前,先确认操作系统版本并选择对应的安装指南部分: ##### 对于Windows用户: ```powershell pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install transformers accelerate bitsandbytes ``` ##### 针对Linux平台: ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install transformers accelerate bitsandbytes ``` ##### macOS环境下: 由于macOS原生支持有限,推荐通过Docker容器化方式部署,具体步骤可参照官方文档说明。 #### 获取与加载模型 完成上述准备工作之后,可以继续执行如下Python脚本片段以实现模型实例化及推理过程初始化: ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "DeepSeek-R1-Distill-Llama-70B-Q4" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained( model_name_or_path, device_map="auto", # 自动分配至可用CUDA设备上 ) def generate_text(prompt): inputs = tokenizer(prompt, return_tensors='pt').to('cuda') outputs = model.generate(**inputs, max_length=50) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(result) generate_text("你好世界") ``` 此段代码实现了从Hugging Face Hub拉取预训练权重文件,并利用这些权重构建了一个用于文本生成的任务管道。最后定义了一个简单的函数用来展示基于给定提示词生成回复的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值