【DeepSeek-V2 技术要点介绍】

最新推荐文章于 2024-08-26 21:18:39 发布

Ai君臣

最新推荐文章于 2024-08-26 21:18:39 发布

阅读量762

点赞数 17

文章标签： DeepSeek V2 大语言模型开源

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/140847968

版权

DeepSeek-V2 是一款基于 Transformer 架构的先进模型，其中每个Transformer块由一个注意力模块和一个前馈网络（FFN)组成。然而，对于注意力模块和 FFN，研究团队设计并采用了创新的架构。旨在通过创新的设计提升推理和训练效率。以下是对 DeepSeek-V2 的关键技术点和架构设计的详细说明❤️：
以下是DeepSeek-V2的关键技术点和架构设计的详细说明表格：

类别	具体技术	详细说明
Transformer 结构改进	❤️	❤️
注意力模块（MLA）	低秩键值联合压缩	利用低秩键值联合压缩技术消除推理时键值缓存的瓶颈，支持高效推理。
前馈网络（FFN）	高性能 MoE 架构（DeepSeekMoE）	采用 Mixture of Experts (MoE) 架构，以经济成本训练强大模型。
架构和训练方法
预训练语料库	高质量、多源预训练语料库	包含 8.1T token 的高质量语料库，特别是中文数据量和数据质量更高。
监督微调（SFT）	150 万个对话数据集	涵盖数学、代码、写作、推理、安全等领域的 150 万个对话数据，用于监督微调。
群组相对策略优化（GRPO）	DeepSeekMath 的 GRPO 策略	采用 GRPO 方法调整模型，使其与人类偏好保持一致。
高效训练框架和并行技术
HAI-LLM 框架	轻量级训练框架	基于高效且轻量级的 HAI-LLM 框架进行训练，支持各种并行技术。
并行策略	16-way zero-bubble pipeline 并行	利用 pipeline 并行技术，将计算任务分成多个阶段并行执行。
	8-way 专家并行	通过专家并行（MoE）技术，将模型中的专家模块分配到不同的设备上。
	ZeRO-1 数据并行	采用 ZeRO-1 数据并行技术，优化内存使用和通信开销。
自定义 CUDA 内核	计算和通信优化	为专家通信、路由算法和线性融合计算定制更快的 CUDA 内核，减少计算时间和通信延迟。
通信开销的减少
激活参数和内存优化	-	激活参数相对较少，重新计算部分算子以节省激活内存，无需张量并行即可训练，减少通信开销。

这个表格清晰地展示了DeepSeek-V2的关键技术点和架构设计。
deepseek架构图

1. Transformer 结构改进

1.1 注意力模块（MLA）

低秩键值联合压缩：DeepSeek-V2 通过 MLA（Multi-Level Attention）方法，利用低秩键值联合压缩技术，解决了推理时键值缓存的瓶颈问题。这种方法能够有效减少推理过程中的计算量和存储需求，从而支持更高效的推理。

1.2 前馈网络（FFN）

FFN 部分采用了 Mixture of Experts (MoE) 架构。通过专家路由和激活选择，使模型在保持高性能的同时降低计算复杂度。

2. 架构和训练方法

2.1 预训练语料库

高质量、多源预训练语料库：研究团队构建了一个由 8.1T token 组成的多语言、高质量的预训练语料库。这一语料库在数据量和数据质量上均优于 DeepSeek 67B 的语料库，特别是在中文数据方面有显著提升。

2.2 监督微调（SFT）

150 万个对话数据集：在预训练之后，研究团队收集了涵盖多个领域的 150 万个对话数据，包括数学、代码、写作、推理和安全等，以对模型进行监督微调，使其在实际应用中表现更优。

2.3 群组相对策略优化（GRPO）

DeepSeekMath 的 GRPO 策略：在微调之后，采用 GRPO 方法进一步调整模型，以确保模型与人类偏好保持一致，提高用户体验和模型的实际应用效果。

3. 高效训练框架和并行技术

3.1 HAI-LLM 框架

轻量级训练框架：DeepSeek-V2 基于高效且轻量级的 HAI-LLM 框架进行训练。该框架支持各种并行技术，优化了计算和通信的重叠，以提升训练效率。

3.2 并行策略

16-way zero-bubble pipeline 并行：利用 pipeline 并行技术，将计算任务分成多个阶段，每个阶段在不同的设备上并行执行，以提高计算效率。
8-way 专家并行：通过专家并行（MoE）技术，将模型中的专家模块分配到不同的设备上，减少每个设备的计算负担。
ZeRO-1 数据并行：采用 ZeRO-1 数据并行技术，进一步优化内存使用和通信开销。