DeepSeek模型架构及优化内容

最新推荐文章于 2025-05-24 14:25:36 发布

开出南方的花

最新推荐文章于 2025-05-24 14:25:36 发布

阅读量4.6k

点赞数 10

CC 4.0 BY-SA版权

文章标签：架构人工智能机器学习 Attention NLP pytorch 深度学习

本文链接：https://blog.csdn.net/m0_60916732/article/details/145579828

DeepSeek

v1版本

模型结构

DeepSeek LLM基本上遵循LLaMA的设计：

采⽤Pre-Norm结构，并使⽤RMSNorm函数.

利⽤SwiGLU作为Feed-Forward Network（FFN）的激活函数，中间层维度为8/3. 去除绝对位置编码，采⽤了RoPE旋转位置编码。

为了优化推理成本. 67B模型使⽤分组查询注意⼒（GQA）⽽不是传统的多头注意⼒（MHA）.

超参数设置

优化器：采⽤adamW优化器， β1=0.9, β2=0.95 ,weight_decay为0.1。

学习率策略：与Llama使⽤余弦学习率调度器不同，其采⽤的是多阶段学习率调度器。该策略通过 “预热-稳态-分阶衰减” 的耦合设计，兼顾训练稳定性、收敛效率与泛化性能。

预热阶段（0～2000步）： 学习率从较⼩初始值线性增⻓⾄峰值（如3e-4），通过渐进式升温避免训练初期因梯度剧烈波动导致的权重震荡，为模型提供稳定的初始化环境。

稳定收敛阶段（2000步后⾄总训练token的80%）： 学习率保持峰值恒定，使模型在核⼼训练周期内充分利⽤⾼学习率的快速收敛能⼒，同时配合梯度截断（clip=1.0）约束梯度幅值，防⽌梯度爆炸并提升训练稳定