【论文讲解】何恺明老师2024新作:无需向量量化的自回归图像生成

原文链接

Autoregressive Image Generation without Vector Quantization
Li T, Tian Y, Li H, et al. Autoregressive Image Generation without Vector Quantization[J]. arXiv preprint arXiv:2406.11838, 2024.
https://arxiv.org/abs/2406.11838
在这里插入图片描述
本博文仅在简介文章主要内容的基础上做一些讲解,文中使用“【】”括住的为非原文内容。更多细节请参考原文。原文于24年6月17日上传arXiv,作者单位包括MIT、Google Deepmind和清华大学。

摘要

原文摘要翻译

传统观点认为,自回归图像生成模型通常需要使用向量量化的token。我们观察到,虽然离散值空间可以方便地表示类别分布,但它并不是自回归建模的必要条件。在这项工作中,我们提出了一种使用扩散过程来建模每个token概率分布的方法,这使得我们可以在连续值空间中应用自回归模型。我们不再使用类别交叉熵损失,而是定义了一种“扩散损失”函数来建模每个token的概率。这种方法消除了对离散值tokenizer的需求。我们评估了其在各种场景中的有效性,包括标准的自回归模型和广义的掩码自回归(MAR)变体。通过去除向量量化,我们的图像生成器在保持序列建模速度优势的同时取得了良好的结果。我们希望这项工作能够激发在其他连续值领域和应用中使用自回归生成的方法。

白话

在传统的自回归图像生成中,模型通常会将图像拆分为一系列离散的代码,然后逐个预测这些代码来生成图像。这有点像拼图,每块拼图代表一个代码。然而,本文提出了一种新方法,不再需要这种“拼图”,而是通过扩散过程来直接预测每个图像片段的概率分布。扩散过程类似于解压视频里的洗地毯,一遍一遍冲刷擦洗一张泥地毯,使其逐渐显露出颜色和花纹。在这个过程中,不再离散地去算每个拼图,而是让每个图像片段保持连续的数值。这使得能够生成更流畅、更自然的图像,而不是用有限的拼图去拼出图像。

总之,这种方法的优势在于它消除了对传统向量量化方法的依赖,这意味着可以更高效地生成图像,同时保留自回归模型的速度优势。这对于未来在其他领域应用自回归生成方法具有重要意义,例如文本生成或视频生成。
在这里插入图片描述

正文

引言和相关工作

自回归模型在自然语言处理中的应用广泛,例如在序列中预测下一个单词或token。由于语言的离散性质,这些模型通常在离散值空间中操作。为了将自回归模型推广到图像生成领域,研究者们通常采用离散化数据的策略,例如通过向量量化(VQ)训练离散值tokenizer。【自回归模型在图像生成中意味着模型通过依次预测像素或像素块来生成整个图像。就比如画画,每一笔都是根据之前画的部分来决定的。自回归模型同理,它根据已生成的部分预测接下来要生成的内容。】

本文提出了一个关键问题:自回归模型是否必须依赖向量量化表示?我们提出使用扩散过程来建模每个token的概率分布,从而使自回归模型在连续值空间中运行。我们定义了一种“扩散损失”函数来取代传统的类别交叉熵损失。

为了介绍本文的技术路线和相关方法的发展历程,文章做了以下相关工作介绍:
序列模型在图像生成中的应用
讨论了RNNs、CNNs和Transformers在自回归图像生成中的应用。
介绍了GIVT等近期工作中使用的连续值token,并将其与本文的工作进行了比较。

扩散表示学习
讨论了一些扩散过程在自监督学习中的应用。
介绍了DiffMAE和DARL等与扩散策略相关的工作。

策略学习中的扩散
介绍了在机器人学中的Diffusion Policy,并将其与图像生成中的token生成进行了类比。

方法

重新思考离散值token:
介绍了离散值token在自回归生成模型中的作用。
解释了在自回归模型中,离散值token的概率分布可以通过交叉熵损失来建模,这是传统的做法,但并非必须的。

扩散损失:
本文核心内容,介绍了损失函数的定义:通过去噪准则计算损失,并在模型训练时进行反向传播。
说明了采样过程:通过反向扩散过程从概率分布中抽取样本。
在这里插入图片描述
【自回归模型生成一个z,表示条件信息(上下文信息、背景信息等),给模型提供预测下一个点的依据。这个z也是根据之前的token生成的。这里的MLP用作去噪器,负责从输入的数据里提取有用信息,图里是接收一个噪声x和条件z,生成一个估计值ε。训练过程中用扩散损失函数L(z, x),来衡量ε和实际噪声的差异,进而调整模型。推理时用z去反向采样得到一个token,整个过程表示为x~p(x|z)】
在这里插入图片描述

自回归模型与扩散损失:
讨论了自回归模型如何使用扩散损失进行图像生成。
介绍了广义的自回归框架,包括标准自回归(AR)和掩码自回归(MAR)模型。
在这里插入图片描述
【图是双向注意力用于自回归模型,对比传统的注意力机制。传统的只能关注当前和之前的,对未来的没有说法,属于标准自回归;双向的每个token都能看到序列中所有token,与掩码自编码器(MAE)类似。推理时逐步生成token,虽然非因果,但还是属于自回归】
在这里插入图片描述
【图是三种自回归方式:标准自回归、随机自回归和掩码自回归。掩码自回归减少了自回归步骤的数量。】

统一自回归与掩码生成模型:
解释了掩码生成模型如何在广义自回归框架下操作。
介绍了使用双向注意力实现自回归的方法,并展示了其优越性。

实验

扩散损失与交叉熵损失的比较
比较了连续值token与扩散损失以及离散值token与交叉熵损失的效果。
结果显示,扩散损失在生成质量上显著优于交叉熵损失。
在这里插入图片描述

扩散损失的灵活性
展示了扩散损失可以支持不同类型的tokenizer,包括VQ tokenizer和非VQ tokenizer。
在这里插入图片描述

去噪MLP在扩散损失中的作用
研究了不同大小的去噪MLP对生成质量的影响。
在这里插入图片描述

采样步骤与扩散损失的Temperature
探讨了扩散采样步骤和Temperature对生成质量的影响。【此处Temperature(温度)是一个用于控制生成图像多样性和保真度的参数。温度值会影响模型在推理时的行为,通过调整模型预测的概率分布来控制生成样本的多样性。较低的温度会使分布更尖锐,即模型更倾向于输出高概率的选项,从而生成质量较高但多样性较低的图像;反之,一个较高的温度会使分布更加平缓,从而增加生成图像的多样性但可能降低质量】
在这里插入图片描述

对比

与现有的领先系统在ImageNet 256x256数据集上的性能进行了比较。结果表明,使用扩散损失的MAR模型在生成质量上具有明显优势。
在这里插入图片描述
在这里插入图片描述

讨论与结论

讨论了扩散损失在各种自回归模型中的有效性,并指出了未来研究的方向。强调了自回归模型在不受限于离散值表示的情况下的潜力。
直观生成结果:
在这里插入图片描述

总结

何老师的这篇文章提出了一种新方法,对于自回归模型在图像生成任务中的应用具有启发性意义。尽管文中提到了一些计算复杂度和实现难度的问题,特别是如何针对性地调参和控温仍然是值得探讨的挑战。但从技术创新的角度来看,这种方法不仅解决了离散token的问题,还显著提高了图像生成的质量和速度,这对其他领域的模型也具有指导意义。期待大火未来沿着这条路径探索更多的工作看看实际应用效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值