DeepSeek为了优化推理速度,主要采取了以下策略:
- 扩大规模推理:
- 提示词工程: 设计更有效的提示词,诱导模型生成更准确的结果,例如使用“逐步思考”之类的提示。
- 投票和搜索策略: 生成多个答案,通过投票选择最佳答案,或者使用束搜索等方法来优化生成结果。
- 多Token预测(MTP): 模型一次预测多个Token,提高训练效率,推理速度随之提升。
- 低秩压缩: 对模型内部的矩阵进行压缩,减少计算过程中的内存占用,从而提升推理速度。
- FP8混合精度训练框架: 使用精度更低的FP8格式进行计算,减少计算量,加快推理速度。
- 多粒度语义编码层: 通过特殊设计的网络结构,提升模型处理复杂语义的能力,间接提升推理效率。