MOE
MOE:采用了动态路由技术,每次处理任务时,会动态激活少数几位“最擅长”的专家参与计算。
MLA:专注于提升模型的“记忆力”和“理解力”
四阶段混合训练流程和群组相对策略优化:
GRPO算法
直接根据“群体”中其他模型的表现来“相对”评价当前模型的优劣,就好比“田忌赛马”的策略,用自己的优势去对抗别人的劣势,从而更高效地提升模型性能。
FP8混合精度训练:“精度魔术”
FP8混合精度训练将GEMM运算精度降低到8-bit浮点数,训练速度提升2.1倍,GPU内存占用减少43%,真正做到了“又快又省”。
DualPipe并行技术:“并行奇观”
将计算任务巧妙地拆分,实现了16路流水线并行和64路专家并行,就好比将一条生产线扩展成多条“并行运转”的超级生产型,大幅提升了生产效率。
动态算子优化:“内核引擎”
针对不同任务、模型自动匹配最优的计算内核。
推理加速的“闪电战”:多token预测与结构化思维链
MTP(多token预测)
MTP技术让模型拥有“预测未来”的能力,MTP可以预测未来2-3个token,解码速度提升4.2倍,token接受率高达91%
S-chain(逻辑引擎)
模型按照分析->验证->结论的结构输出,并利用规则引擎实时校验中间步骤