自回归(AR)与扩散(Diffusion)的邂逅

最新推荐文章于 2025-04-25 21:48:27 发布

吕小明么

最新推荐文章于 2025-04-25 21:48:27 发布

阅读量1.2k

点赞数 6

文章标签： agi 人工智能 AIGC 语言模型算法

本文链接：https://blog.csdn.net/weixin_42619619/article/details/140829638

版权

Next-token Prediction Meets Full-Sequence Diffusion

记得在两三个月之前，发表了一篇想法笔记，主要是围绕“关于LLM的AR-next token prediction”的思考（大家可参见之前的某书笔记和某乎提问的历史截图，ps某乎至今无人应答5555），出发点是前一阵子自己魔障似的陷入了针对“system2复杂推理”的探索“魔咒”..

今天看到了来自MIT CSAIL的“Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”这篇论文，也找到了自己之前思想实验的另一种路径探索的尝试与论证（文中包含了复杂的理论证明），之前的像AR-diffusion也算是早期的一种尝试和探索..

可以说本文中的工作尝试构建起了一种新的训练范式，其中模型被训练以去噪具有独立每个令牌噪声水平的令牌集，在这种范式下，尝试将AR-next token prediction与diffusion的优势结合起来，实验并尝试在未来拓展更复杂的大规模Gen任务。

虽然一种新的训练范式的成功与否离不开模型结构与算法的创新，当然除了在模型和方法的创新外，也需要更全局的洞察到真实世界中所映射的数据与认知模式的完整流形分布是否与上述“创新”是匹配的。未来，这一路径与未来RL的某种路径也许会更加创新性的耦合到一起，但技术上的挑战和理论上的复杂性可想而知，不过看到这篇论文中对技术方法的尝试以及理论的创新还是让人蛮兴奋的～感兴趣的大伙可以精读一下原论文，或者我们也可以随时随刻随地的探讨起来：)