5分钟在本地PC上使用VLLM快速启动Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ

前言

VLLM 是一个高效且轻量的大规模语言模型(LLM)服务器。本文将介绍如何在本地PC上使用VLLM快速启动 Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ 这一高性能语言模型。按照本文的步骤操作,您可以在5分钟内完成模型的启动。

环境准备

所需工具

请确保已安装以下工具:

  • conda:用于管理Python虚拟环境。
  • pip:用于安装Python包。
  • VLLM:用于高效运行LLM的服务器。
  • flash-attn:用于加速模型推理的库。

创建虚拟环境

首先,创建一个Python 3.11的虚拟环境并激活它。

conda create -n vllm_v0.7.2 python=3.11 -y
conda activate vllm_v0.7.2

安装VLLM及依赖库

运行以下命令安装VLLM和flash-attn

pip install vllm
pip install flash-attn --no-build-isolation

模型下载

安装Hugging Face CLI

为了下载模型,首先安装Hugging Face CLI。

pip install "huggingface_hub[hf_transfer]"

下载DeepSeek-R1-Distill-Qwen-32B

使用以下命令下载 DeepSeek-R1-Distill-Qwen-32B 模型。


                
<think>嗯,用户想在Ubuntu系统上部署DeepSeek 70B模型。首先,我需要回忆一下相关的部署步骤。根据之前看到的参考资料,特别是引用[3],里面提到了在Ubuntu系统使用vLLM来部署这个模型。那应该是个关键点。 首先,系统要求方面,用户需要确保有足够的硬件资源,比如GPU内存。因为模型大小是132GB,所以可能需要多块GPU,比如4块A100 80GB。然后,操作系统是Ubuntu 20.04或22.04,这需要用户确认自己的系统版本是否符合。 接下来是环境准备。安装CUDA和驱动,这里可能需要指导用户安装合适的版本。比如CUDA 11.8或更高,以及对应的NVIDIA驱动。如果用户已经安装过这些,可能需要检查版本是否兼容。另外,安装conda来创建虚拟环境,这样可以隔离依赖,避免冲突。 然后是模型下载。用户需要从Hugging Face获取模型,可能需要使用git lfs,特别是大文件下载。需要提醒用户确保有足够的存储空间,因为模型文件很大。 安装vLLM框架,这个框架可以提升推理效率。引用[3]提到可能遇到CUDA版本问题,这时候可以用conda install cuda来补充依赖。这一步可能需要特别注意,避免CUDA版本不匹配导致的错误。 部署步骤中,编写启动脚本,使用vLLM的API服务启动模型,设置端口和GPU数量。用户可能需要根据实际GPU数量调整tensor-parallel-size参数。 测试服务时,用curl命令发送请求到API,检查是否能正常返回结果。同时,建议用户进行性能优化,比如调整batch_size和启用量化,以提升推理速度。 可能遇到的问题包括CUDA版本不兼容、GPU内存不足、下载中断等。需要给出具体的解决方案,比如调整CUDA版本,使用--no-check-whole-files参数继续下载,或者增加GPU数量。 最后,生成相关问题,帮助用户扩展了解其他部署方式和性能优化方法。这些需要基于已有的知识,比如使用Docker部署或者知识蒸馏,但需要确保这些方法确实可行,或者提示用户可能需要进一步查阅资料。 整个过程中,需要确保步骤清晰,用户能够一步步跟随操作,同时预见到可能的问题并提供解决办法。另外,注意引用相关的参考资料,比如引用[3]中的conda安装cuda的方法,这样用户知道这些建议的来源可靠。</think>### Ubuntu系统中部署DeepSeek 70B模型分步指南 #### 一、系统要求 1. **硬件配置** - GPU:至少4块NVIDIA A100 80GB(需启用NVLink) - 内存:256GB以上系统内存 - 存储:500GB SSD(模型文件约132GB) 2. **软件环境** - Ubuntu 20.04/22.04 LTS - CUDA 11.8+ / cuDNN 8.6+ - Python 3.9+ - Docker 20.10+(可选) #### 二、部署流程 1. **环境准备** ```bash # 安装CUDA工具包 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" sudo apt-get install cuda-11-8 # 创建conda环境 conda create -n deepseek python=3.9 conda activate deepseek ``` 2. **模型下载** ```bash # 安装git-lfs sudo apt-get install git-lfs git lfs install # 下载模型文件 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B ``` 3. **安装vLLM框架** ```bash # 安装依赖(注意CUDA版本匹配) pip install vllm==0.2.6 conda install cuda -c nvidia # 补充CUDA依赖[^3] ``` 4. **启动推理服务** ```python # start_server.py from vllm import LLM, SamplingParams llm = LLM( model="DeepSeek-R1-Distill-Llama-70B", tensor_parallel_size=4, # 对应GPU数量 gpu_memory_utilization=0.9 ) ``` ```bash # 启动API服务 python -m vllm.entrypoints.api_server \ --model DeepSeek-R1-Distill-Llama-70B \ --port 8000 \ --tensor-parallel-size 4 ``` #### 三、验证部署 ```bash # 发送测试请求 curl http://localhost:8000/generate \ -d '{ "prompt": "中国的首都是哪里?", "max_tokens": 50, "temperature": 0.7 }' ``` #### 四、常见问题解决 1. **CUDA版本不匹配** ```bash # 查看CUDA版本 nvcc --version # 若需降级版本 conda install cudatoolkit=11.8 -c nvidia ``` 2. **GPU内存不足** ```bash # 调整并行策略 --tensor-parallel-size 8 # 增加GPU数量 --block-size 16 # 减小内存块尺寸 ``` 3. **模型下载中断** ```bash git lfs pull -I "*.bin" # 断点续传 git lfs install --skip-smudge # 跳过校验 ``` #### 五、性能优化建议 1. **启用量化推理** ```python llm = LLM( model=model_path, quantization="awq", enforce_eager=True ) ``` 2. **批处理优化** ```python sampling_params = SamplingParams( temperature=0.7, top_p=0.9, max_tokens=256, batch_size=16 # 增大批处理量 ) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值