由于编辑器垃圾,换了下篇。。。
期待已久的 DeepSeek V3 终于开源了,这在整个人工智能界引起了震动。这款尖端的人工智能模型在多语言编程能力方面取得了无与伦比的进步,在 Aider 多语言编程评估中大大超过了行业巨头 Claude 3.5 和 Sonnet V2。在这篇博文中,我们将深入探讨 DeepSeek-V3-Base 的显著改进和创新架构,探索其潜在应用及其开源对人工智能领域的影响。
聊天网站和API平台
您可以在DeepSeek的官方网站上与DeepSeek-V3聊天:chat.deepseek.com
我们还在DeepSeek平台上提供与OpenAI兼容的API:platform.deepseek.com
如何在本地运行
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
- DeepSeek-Infer 演示: 我们为FP8和BF16推理提供了一个简单轻量级的演示。
- SGLang: 在 BF16 和 FP8 推理模式下完全支持 DeepSeek-V3 模型。
- LMDeploy: 支持本地和云部署的高效 FP8 和 BF16 推理。
- TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。
- AMD GPU: 支持在 AMD GPU 上通过 SGLang 以 BF16 和 FP8 模式运行 DeepSeek-V3 模型。
- 华为 Ascend NPU: 支持在华为 Ascend 设备上运行 DeepSeek-V3。
由于我们的框架原生采用 FP8 训练,因此我们只提供 FP8 权重。
以下是将 FP8 权重转换为 BF16 权重的示例:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
注意:尚未直接支持 Huggingface 的 Transformers。
6.1 使用 DeepSeek-Infer 进行推理演示(仅示例)
模型权重和演示代码准备
首先,克隆我们的 DeepSeek-V3 GitHub 仓库:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
导航至 inference 文件夹,安装 requirements.txt 中列出的依赖项。
cd DeepSeek-V3/inference
pip install -r requirements.txt
从 HuggingFace 下载模型权重,并将其放入 /path/to/DeepSeek-V3 文件夹。
模型权重转换
将 HuggingFace 模型权重转换为特定格式:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
运行
然后您就可以与 DeepSeek-V3 聊天了:
torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
或对给定文件进行批量推理:
torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
6.2 使用 SGLang 进行推理(推荐)
SGLang目前支持MLA优化、FP8 (W8A8)、FP8 KV Cache和Torch编译,在开源框架中提供了最先进的延迟和吞吐量性能。
值得注意的是,SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3,使其成为一个高度通用和强大的解决方案。
以下是 SGLang 团队提供的启动说明:https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3
6.3 使用 LMDeploy 进行推理(推荐)
专为大型语言模型量身定制的灵活、高性能推理和服务框架LMDeploy现在支持DeepSeek-V3。它提供离线管道处理和在线部署功能,可与基于 PyTorch 的工作流无缝集成。
有关使用 LMDeploy 运行 DeepSeek-V3 的全面分步说明,请参阅此处: https://github.com/InternLM/lmdeploy/issues/2960
6.4 使用 TRT-LLM 进行推理(推荐)
TensorRT-LLM 现在支持 DeepSeek-V3 模型,提供 BF16 和 INT4/INT8 加权等精度选项。对 FP8 的支持目前正在进行中,很快就会发布。你可以通过以下链接访问专为支持 DeepSeek-V3 而定制的 TRTLLM 分支,直接体验新功能:https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3。
6.5 推荐使用 AMD GPU 的推理功能
我们与 AMD 团队合作,使用 SGLang 实现了对 AMD GPU 的 Day-One 支持,并完全兼容 FP8 和 BF16 精度。有关详细指导,请参阅 SGLang 说明。
6.6 使用华为 Ascend NPU 的推荐推理功能
华为 Ascend 社区的 MindIE 框架已成功适配 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的逐步指导,请按照此处的说明进行操作。
结论
DeepSeek-V3-Base 标志着多语言编程能力的重大飞跃,超越了其竞争对手,并展示了其彻底改变各行各业的潜力。随着人工智能领域的不断发展,这一开创性模型的开源无疑将推动该领域的创新和进步。