5分钟在本地PC上使用VLLM快速启动Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ
前言
VLLM 是一个高效且轻量的大规模语言模型(LLM)服务器。本文将介绍如何在本地PC上使用VLLM快速启动 Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ 这一高性能语言模型。按照本文的步骤操作,您可以在5分钟内完成模型的启动。
环境准备
所需工具
请确保已安装以下工具:
- conda:用于管理Python虚拟环境。
- pip:用于安装Python包。
- VLLM:用于高效运行LLM的服务器。
- flash-attn:用于加速模型推理的库。
创建虚拟环境
首先,创建一个Python 3.11的虚拟环境并激活它。
conda create -n vllm_v0.7.2 python=3.11 -y
conda activate vllm_v0.7.2
安装VLLM及依赖库
运行以下命令安装VLLM和flash-attn
。
pip install vllm
pip install flash-attn --no-build-isolation
模型下载
安装Hugging Face CLI
为了下载模型,首先安装Hugging Face CLI。
pip install "huggingface_hub[hf_transfer]"
下载DeepSeek-R1-Distill-Qwen-32B
使用以下命令下载 DeepSeek-R1-Distill-Qwen-32B 模型。