DeepSeek
v1版本
模型结构
DeepSeek LLM基本上遵循LLaMA的设计:
采⽤Pre-Norm结构,并使⽤RMSNorm函数.
利⽤SwiGLU作为Feed-Forward Network(FFN)的激活函数,中间层维度为8/3. 去除绝对位置编码,采⽤了RoPE旋转位置编码。
为了优化推理成本. 67B模型使⽤分组查询注意⼒(GQA)⽽不是传统的多头注意⼒(MHA).
超参数设置
优化器:采⽤adamW优化器, β1=0.9, β2=0.95 ,weight_decay为0.1。
学习率策略:与Llama使⽤余弦学习率调度器不同,其采⽤的是多阶段学习率调度器。该策略通过 “预热-稳态-分阶衰减” 的耦合设计,兼顾训练稳定性、收敛效率与泛化性能。
预热阶段(0~2000步): 学习率从较⼩初始值线性增⻓⾄峰值(如3e-4),通过渐进 式升温避免训练初期因梯度剧烈波动导致的权重震荡,为模型提供稳定的初始化环境。
稳定收敛阶段(2000步后⾄总训练token的80%): 学习率保持峰值恒定,使模型在核 ⼼训练周期内充分利⽤⾼学习率的快速收敛能⼒,同时配合梯度截断(clip=1.0) 约束 梯度幅值,防⽌梯度爆炸并提升训练稳定