推理加速trick之：Multi-Token Prediction(MTP)

最新推荐文章于 2025-05-12 16:58:49 发布

Takoony

最新推荐文章于 2025-05-12 16:58:49 发布

阅读量1.5k

点赞数 7

文章标签： ai

本文链接：https://blog.csdn.net/ningyanggege/article/details/145263241

版权

DeepSeek-V3论文中提到Multi-Token Prediction，如下所示：
Architecture: Innovative Load Balancing Strategy and Training Objective

On top of the efficient architecture of DeepSeek-V2, we pioneer an auxiliary-loss-free
strategy for load balancing, which minimizes the performance degradation that arises
from encouraging load balancing.
We investigate a Multi-Token Prediction (MTP) objective and prove it beneficial to model
performance. It can also be used for speculative decoding for inference acceleration

通常在自然语言处理（NLP）任务中，模型的训练目标是 单词级预测 或 单个 token 的预测，即根据上下文预测下一个单词或 token（如 GPT 模型的自回归生成目标）。这种目标称为 单一 token 预测。

Multi-Token Prediction (MTP) 是一种扩展目标，在训练时，模型不仅预测下一个单 token，而是同时预测多个未来的 token。例如：

这种方法不仅能提升训练效率，还可以为推理提供新的加速手段。

MTP 对模型性能的提升来自以下几个方面：

MTP 的目标更接近实际生成任务。传统的单 token 预测可能导致模型局限于逐步生成，而 MTP 能让模型更好地学习到多 token 的联合分布，提高建模性能。

Speculative Decoding 是一种用于加速推理的技巧，特别适用于 自回归模型（autoregressive models） 的生成任务。

传统自回归解码：生成文本时，模型逐个 token 地生成，每个 token 的生成都依赖于之前生成的结果。这种方法尽管准确，但非常慢，因为每次生成都需要进行完整的前向计算。
Speculative Decoding：通过推测未来的多个 token，提前生成一部分候选结果，然后在这些候选结果中进行验证或修正，从而减少逐步生成的次数。

MTP 的目标 是在一次前向计算中同时预测多个未来 token 的概率分布。
这种能力可以直接用于 Speculative Decoding：
- 模型一次性生成多个 token 的候选结果，而不是逐个生成。
- 通过某种机制（如更精确的校验模型或后处理步骤）验证和修正这些候选结果。
- 如果候选 token 验证通过，可以直接使用，从而跳过若干步推理。

以下是一个具体案例，说明 MTP 和 Speculative Decoding 的实际应用：

假设我们有一个 GPT 模型用于生成长文本：

传统方法：GPT 基于单 token 预测，每次生成一个 token。生成长度为 𝐿 的文本需要进行 𝐿 次前向传播。
使用 MTP 和 Speculative Decoding：
- 训练 GPT 时，引入 MTP 目标，让模型在每个时间步预测多个后续 token。
- 在推理阶段，使用 Speculative Decoding：
  - 一次预测 5 个 token 候选。
  - 验证候选 token，如果通过，直接采用；如果不通过，只需重新生成部分 token。
  - 通过减少前向传播次数，加速推理。