DeepSeek R1 与 OpenAI 的 GPT-o1 相比,节约成本的关键如下:
模型架构方面
- 采用 MoE 架构:GPT-o1 一般采用传统架构,处理每个输入都会调用整个神经网络。而 DeepSeek R1 采用 MoE 架构,像一个分工合作的团队,内部有多个 “专家” 子模型,根据具体任务只启用部分 “专家” 子网络,大大减少不必要的计算量。
- 多头隐式注意力优化:DeepSeek R1 通过对注意力机制优化,能更高效捕捉文本长距离依赖关系,相比传统注意力机制减少计算量,而 GPT-o1 在这方面可能采用常规注意力机制,计算量相对较大。
训练方法方面
- 强化学习创新:DeepSeek R1 在强化学习中,模型生成答案后接收人类评价反馈,调整决策策略,能减少错误回答,提高训练效率,避免大量无效训练。GPT-o1 可能在强化学习反馈机制等方面没有如此高效精准的优化。
- 知识蒸馏:DeepSeek R1 利用知识蒸馏,让小模型继承大模型的高质量推理能力,可使用较小模型达到近似大模型效果,降低推理计算资源需求。GPT-o1 没有采用这种通过知识蒸馏来压缩模型并保持性能的方式。
- 训练算法优化:DeepSeek R1 采用组相对策略优化(GRPO)替代传统的近端策略优化(PPO),无需单独的价值模型,采用基于组的相对优势估计,降低内存和计算开销。GPT-o1 可能采用传统的训练算法,在计算开销上相对较大。
数据处理方面
- 精心筛选与预处理:DeepSeek R1 训练前对海量数据进行清洗、去噪和数据增广等操作,使模型专注高质量信息,减少冗余计算。GPT-o1 可能在数据预处理的精细程度和针对性上不如 DeepSeek R1。
- 多 Token 预测(MTP):DeepSeek 的 V3 采用 MTP 技术,每一步可预测多个 token,提高数据利用效率,加速模型学习。GPT-o1 若采用传统一次只预测下一个 token 的方式,数据利用效率和学习速度相对较低。
计算优化方面
- FP8 精度计算:DeepSeek R1 通过 8 位浮点计算(FP8)大幅节省内存,还引入 FP8 累积修正技术防止数值误差影响精度。GPT-o1 可能采用 16 位或 32 位浮点计算,在内存占用和计算资源消耗上更大。
- 优化的流水线并行策略:DeepSeek R1 在硬件层面采用优化的流水线并行策略,高效配置专家分发与跨节点通信。GPT-o1 在硬件通信和资源配置的优化可能没有达到 DeepSeek R1 的水平,存在计算资源浪费的情况。
训练流程方面
- 精简训练步骤:DeepSeek R1 减少监督微调(SFT)步骤,甚至推出仅依赖强化学习的 DeepSeek - R1 - Zero 版本,添加少量冷启动数据提升稳定性和推理能力。GPT-o1 可能遵循传统完整的训练流程,步骤相对复杂,成本较高1。
- 模板化 RLHF 训练:DeepSeek R1 开发简洁有效的训练模板,提供推理过程生成指南,强调结构化输出格式,提高训练效率和可控性。GPT-o1 可能缺乏这样简洁高效且具有针对性的训练模板,训练过程的可控性和效率相对较低。
分享