何恺明新作！打破自回归图像生成瓶颈，奥赛金牌得主参与

最新推荐文章于 2025-03-29 17:01:03 发布

自动驾驶之心

最新推荐文章于 2025-03-29 17:01:03 发布

阅读量1.4k

点赞数 1

文章标签：回归数据挖掘人工智能机器学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247614814&idx=4&sn=23cf3a81920d85c55dff69bebdef9a6c&chksm=cf832779386828dc6955e93179399e679c11a071ce086ed4aa6391c88d2c076d4aadc2beaf5b&scene=126&sessionid=0

版权

作者 | 21# 编辑 | 夕小瑶科技说

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『计算机视觉』技术交流群

本文只做学术分享，如有侵权，联系删文

导读

巧妙地借鉴了扩散模型的思想，成功地将自回归模型从矢量量化的束缚中解放出来，实现了连续值生成图像的突破。

近日，深度学习领域的杰出研究者何恺明及其团队又放了个大招，推出其团队最新研究工作，在AI研究领域引起了广泛关注。

何恺明2024年加入麻省理工学院(MIT)，在电气工程与计算机科学系担任教职。

何恺明团队联合Google DeepMind和清华大学，首次提出了一种无需矢量量化的自回归图像生成方法，彻底颠覆了人们对自回归生成技术的认知。

在传统的自回归图像生成中，矢量量化一直是不可或缺的一环。然而，这种方法的局限性在于，它依赖于离散的tokenizer，这在一定程度上限制了生成图像的灵活性和多样性。

而今，何恺明团队巧妙地借鉴了扩散模型的思想，成功地将自回归模型从矢量量化的束缚中解放出来，实现了连续值生成图像的突破。

一起看看这一创新是如何提高自回归图像生成的质量和多样性的，以及是如何改变AI领域的未来走向！

论文题目:
Autoregressive Image Generation without Vector Quantization

论文链接:
https://arxiv.org/abs/2406.11838

扩散损失引入自回归图像生成

自回归模型在自然语言处理中非常成功，人们普遍认为它们需要离散表示。因此，在将自回归模型应用于图像生成等连续值领域时，研究主要集中在如何将图像数据离散化，而不是直接在连续空间上建模。

但自回归的本质在于基于前面的token作为输入来预测序列中的下一个token，不禁疑惑：难道连续的token值就不能实现上述过程了吗？

何凯明团队将扩散过程中的损失函数引入到自回归图像生成过程，引入了扩散损失（Diffusion Loss）。

自回归模型学习不同token间的关联性，而扩散过程通过损失函数学习单个token的概率分布。具体来讲，自回归模型会根据前面的token预测一个向量z作为小型去噪网络（如MLP）的条件，通过损失函数不断学习连续值x的潜在分布并从中采样。

统一自回归和掩码生成模型的创新框架

何恺明团队还提出了一种统一标准自回归模型（AR）和掩码生成模型（MG）的广义自回归框架，具体表现为掩码自回归（MAR）模型。该模型利用双向注意力机制，在随机顺序下同时预测多个输出标记，同时保持自回归的特性。这一方法显著提高了生成速度。

传统的因果注意力机制，它通过限制每个标记只关注之前的标记来实现自回归。而双向注意力机制，它允许每个标记在序列中看到所有其他标记。掩码标记在中间层添加了位置嵌入，这种设置只在未知标记上计算损失，但允许序列中的标记之间进行全面的交流，从而在推理时能够逐个生成标记。同时，它还允许我们同时预测多个标记。

自回归+扩散 vs 自回归 vs 扩散

作为自回归模型和扩散模型的融合，其方法极具有创新性，那与传统自回归生成和扩散生成相比，性能如何呢？

生成快且效果精

相比于传统的自回归（AR）模型和扩散Transformer（DiT）模型，MAR模型在使用扩散损失后，能够更快速且更准确地生成图像。具体来说，MAR模型的生成速度小于0.3秒每张图像，且在ImageNet 256×256数据集上的FID得分小于2.0，体现了其高效性和高质量。

与领先模型相较毫不逊色

不同模型规模下，经过800个周期的训练，此方案展示了良好的扩展性。与当前的领先模型相比，此方法也毫不逊色。在不使用CFG的情况下，MAR模型的FID为2.35，显著优于其他基于标记的方法。最佳条目的FID为1.55，与领先模型相比具有竞争力。

总结

何恺明团队在图像生成领域的强有力结果表明，自回归模型或其拓展版本不仅仅是语言建模的有力工具，它们在其他领域也有很大的潜力。这些模型不必受限于向量量化表示，这意味着它们可以更有效地处理连续值表示的数据。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频