本章将聚焦当前备受瞩目的开源模型 DeepSeek-V3。作为一款自称超越所有开源模型,甚至在部分能力上超过闭源模型的产品,DeepSeek-V3展现了惊人的潜力。不过,从 RAG 系统的实际需求来看,采用 DeepSeek-V3 似乎有些“大材小用”,它更适合应用于数学与代码等需要强推理能力的场景。
下表是DeepSeek-V3官网给出基础模型的测试打分:
从这份测试报告中可以看到,DeepSeek-V3 在代码(Code)和数学(Math)领域全面超越了几款主流开源模型,尤其是阿里的 Qwen2.5-72B。值得注意的是,Qwen2.5-72B 本身已是一款强大的模型,尤其在 Code 和 Math 上表现不俗,而报告中显示 DeepSeek-V3 的性能超越了它,这无疑为业界带来了一次令人瞩目的技术突破,进一步巩固了其在高复杂性任务中的领先地位。
一、DeepSeek-V3介绍
我们提出了 DeepSeek-V3,这是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。我们在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。(摘自DeepSeek-V3官网)
根据 DeepSeek-V3 官网说明,V3 在以下三个方面实现了显著改进:架构设计、预训练方法以及训练后优化。这些提升使其在多个任务中展现了更强的性能和更广泛的适用性。
架构:创新负载平衡策略和训练目标
- 在 DeepSeek-V2 高效的架构之上,我们首创了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。
- 我们研究了多标记预测 (MTP) 目标,并证明它有利于模型性能。它还可以用于推测解码以加速推理。
预训练:实现终极训练效率
-
我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。
-
通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全计算-通信重叠。
这大大提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。
-
我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T token 上完成了 DeepSeek-V3 的预训练,得到了目前最强的开源基础模型,预训练之后的后续训练阶段仅需 0.1M GPU 小时。
训练后:来自 DeepSeek-R1 的知识提炼
- 我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,并显著提高了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。
二、DeepSeek-V3部署
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
- DeepSeek-Infer 演示:我们为 FP8 和 BF16 推理提供了一个简单、轻量级的演示。
- SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型,并即将推出多令牌预测功能。
- LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。
- TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。
- vLLM:支持具有 FP8 和 BF16 模式的 DeepSeek-V3 模型,实现张量并行和流水线并行。
- AMD GPU:支持在 BF16 和 FP8 模式下通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型。
- 华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。
接下来,将详细讲解如何使用 SGLang 和 vLLM 高效部署 DeepSeek-V3 的具体步骤。
三、SGLang部署DeepSeek-V3
GPU建议
- 8 个 NVIDIA H200 GPU。
如果您没有具有足够大内存的 GPU,请尝试多节点张量并行。
安装和启动
如果启动服务器时遇到错误,请确保权重已下载完成。建议提前下载或多次重启,直到下载完所有权重。
使用 Docker(推荐)
# Pull latest image
# https://hub.docker.com/r/lmsysorg/sglang/tags
docker pull lmsysorg/sglang:latest
# Launch
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code --port 30000
对于高 QPS 场景,添加--enable-dp-attention
参数以提高吞吐量。
使用 pip
# Installation
pip install "sglang[all]>=0.4.1.post5" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer
# Launch
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
对于高 QPS 场景,添加--enable-dp-attention
参数以提高吞吐量。
使用 OpenAI API 发送请求
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
# Chat completion
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "You are a helpful AI assistant"},
{"role": "user", "content": "你真的那么强吗?"},
],
temperature=0,
max_tokens=64,
)
print(response)
四、vLLM部署DeepSeek-V3
vLLM v0.6.6 支持 NVIDIA 和 AMD GPU 上 FP8 和 BF16 模式的 DeepSeek-V3 推理,除了标准技术外,vLLM 还提供_管道并行性_,让您可以在通过网络连接的多台机器上运行此模型。
介绍管道并行
-
单 GPU(无分布式推理):如果您的模型适合单 GPU,则可能不需要使用分布式推理。只需使用单 GPU 运行推理即可。
-
单节点多 GPU(张量并行推理):如果您的模型太大,无法放入单个 GPU,但可以放入具有多个 GPU 的单个节点,则可以使用张量并行。张量并行大小是您要使用的 GPU 数量。例如,如果您在单个节点中有 4 个 GPU,则可以将张量并行大小设置为 4。
-
多节点多 GPU(张量并行加流水线并行推理):如果您的模型太大,无法放入单个节点,则可以将张量并行与流水线并行结合使用。张量并行大小是您希望在每个节点中使用的 GPU 数量,流水线并行大小是您希望使用的节点数量。例如,如果您在 2 个节点中有 16 个 GPU(每个节点 8 个 GPU),则可以将张量并行大小设置为 8,将流水线并行大小设置为 2。
简而言之,您应该增加 GPU 数量和节点数量,直到您有足够的 GPU 内存来容纳模型。张量并行大小应该是每个节点中的 GPU 数量,管道并行大小应该是节点数量。
安装和启动
通过查阅 vLLM 的 issue 列表可以发现,目前 vLLM 对 DeepSeek-V3 的支持仅处于基础运行阶段,性能尚未达到预期。因此,暂不提供安装和启动的详细指南。待 vLLM 的增强计划完成后,我们会及时更新相关内容并提供完整的部署说明。
部署推荐
建议企业采用SGLang部署DeepSeek-V3
五、写在最后
DeepSeek-V3 在代码和数学领域表现突出,对于关注这些方向的企业来说无疑是一大喜讯。毕竟,这两项能力在市场上有着广阔的应用前景,而以往具有高性能的模型大多为闭源且高成本。DeepSeek-V3 的出现,以开源形式提供了强大的能力,不仅降低了门槛,也为创业和技术创新提供了更多可能性。它的发布在大模型领域引发了不小的轰动,为行业带来了更多选择和活力。
六、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】