EXO分布式部署deepseek r1

MC数据局

已于 2025-05-17 23:47:04 修改

阅读量650

点赞数 10

文章标签：分布式 deepseek 推理部署

于 2025-05-17 23:00:42 首次发布

本文链接：https://blog.csdn.net/WASEFADG/article/details/148035494

版权

EXO 是一个支持分布式 AI 计算的框架，可以用于在多个设备（包括 Mac Studio）上运行大语言模型（LLM）。以下是联调 Mac Studio 512GB 的步骤：

安装 EXO
• 从 EXO GitHub 仓库下载源码或使用 git clone 获取项目。

• 运行安装脚本：

source install.sh

或者使用虚拟环境安装依赖项。

启动 EXO
• 在 Mac Studio 上运行：

exo

• 如果有多台设备（如 Mac mini 或其他 Mac Studio），可以在每台设备上运行 exo，EXO 会自动以 P2P（点对点）方式连接。

配置 Mac Studio 512GB
• 内存优化：EXO 要求所有设备的总内存足够容纳模型。Mac Studio 512GB 可以运行大模型（如 DeepSeek R1），但需确保 macOS 的 VRAM 分配足够（可能需要手动调整上限）。

• 性能优化：

• 升级到最新 macOS（如 Sequoia）。

• 运行 ./configure_mlx.sh 优化 GPU 内存分配。

运行模型
• 使用 EXO 的 API 或 WebUI：

• API 调用示例：

```bash
curl http://localhost:52415/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1",
    "messages": [{"role": "user", "content": "你的问题"}],
    "temperature": 0.7
  }'
```

• WebUI：访问 http://localhost:52415 使用类似 ChatGPT 的界面。

分布式计算（可选）
• 如果结合其他设备（如 Mac mini），EXO 会自动分配计算负载，提升推理速度。
注意事项
• 模型量化：对于大模型（如 DeepSeek R1），建议使用 4-bit 或 8-bit 量化以减少内存占用。

• 散热管理：长时间运行大模型可能导致 Mac Studio 发热，确保通风良好。

如果需要更详细的配置（如量化模型或微调），可参考 EXO 官方文档或 Unsloth 优化指南。

参考：https://blog.csdn.net/buvuvib66/article/details/146114658