以下是部署DeepSeek R1大模型的详细Markdown指南,可直接保存为.md
文件并分享:
# DeepSeek R1 大模型本地部署指南
**适用系统**:Windows 10/11 & Linux (Ubuntu 20.04+)
---
## 目录
1. [硬件要求](#硬件要求)
2. [准备工作](#准备工作)
3. [Windows部署步骤](#windows部署步骤)
4. [Linux部署步骤](#linux部署步骤)
5. [验证安装](#验证安装)
6. [常见问题](#常见问题)
7. [进阶配置](#进阶配置)
8. [注意事项](#注意事项)
---
## <a id="硬件要求"></a>一、硬件要求
| 组件 | 最低配置 | 推荐配置 |
|------|----------|----------|
| GPU | NVIDIA GTX 1660 6GB | RTX 3060 12GB+ |
| 内存 | 16GB DDR4 | 32GB DDR4 |
| 存储 | 50GB HDD | 100GB NVMe SSD |
| 系统 | Windows 10 / Ubuntu 20.04 | Windows 11 / Ubuntu 22.04 |
---
## <a id="准备工作"></a>二、准备工作
### 1. 基础软件安装
- **Git**: [Windows版下载](https://git-scm.com/) | Linux安装:
```bash
sudo apt update && sudo apt install git
- Python 3.8+:
- Windows: Python官网下载
- Linux:
sudo apt install python3.8 python3-pip
2. 安装CUDA(GPU用户必须)
-
Windows:
-
Linux:
# 检查GPU驱动 nvidia-smi # 安装CUDA sudo apt install nvidia-cuda-toolkit
3. 配置Git LFS(大文件支持)
git lfs install
三、Windows部署步骤
1. 获取模型代码
git clone https://github.com/deepseek-ai/DeepSeek-R1.git
cd DeepSeek-R1
2. 创建虚拟环境
python -m venv deepseek_env
deepseek_env\Scripts\activate
3. 安装依赖库
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
4. 下载模型权重
git clone https://huggingface.co/deepseek/DeepSeek-R1 models/
5. 运行测试脚本
创建demo.py
:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("models/DeepSeek-R1", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("models/DeepSeek-R1")
inputs = tokenizer("北京有哪些著名景点?", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0]))
运行:
python demo.py
四、Linux部署步骤
1. 克隆仓库
git clone https://github.com/deepseek-ai/DeepSeek-R1.git
cd DeepSeek-R1
2. 配置Python环境
python3 -m venv deepseek_env
source deepseek_env/bin/activate
3. 安装依赖
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip3 install -r requirements.txt
4. Docker方式(可选)
# 拉取镜像
docker pull pytorch/pytorch:2.1.0-cuda11.8-cudnn8-devel
# 启动容器
docker run -it --gpus all -v $(pwd):/app pytorch/pytorch:2.1.0-cuda11.8-cudnn8-devel
5. 运行模型
python3 demo.py
五、验证安装
成功标志:
- 无报错信息
- 输出类似:
北京著名景点包括故宫、天安门广场、颐和园...
六、常见问题
Q1: CUDA out of memory
- 解决方案:
# 减少生成长度 model.generate(..., max_new_tokens=50) # 启用内存优化 model.enable_model_cpu_offload()
Q2: 下载模型中断
- 使用镜像加速:
git config --global url."https://hf-mirror.com/".insteadOf "https://huggingface.co/"
七、进阶配置
1. API服务部署
创建api.py
:
from fastapi import FastAPI
app = FastAPI()
@app.post("/chat")
async def chat(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs)
return {"response": tokenizer.decode(outputs[0])}
启动服务:
uvicorn api:app --host 0.0.0.0 --port 8000
2. 量化加速
from transformers import BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True
)
model = AutoModelForCausalLM.from_pretrained(..., quantization_config=bnb_config)
八、注意事项
- 遵守DeepSeek的使用协议
- 推荐使用SSD存储以加快加载速度
- 首次运行需10-15分钟初始化模型
- 对话历史保存在
./chat_history
目录
---
**下载说明**:
1. 复制以上内容到文本编辑器
2. 保存为 `DeepSeek-R1-Deployment-Guide.md`
3. 可通过[Gist](https://gist.github.com)或GitHub分享
如需PDF版本,可使用[Markdown转PDF工具](https://md2pdf.netlify.app/)转换。