研究人员将两种流行方法的优点融合在一起,打造出一种图像生成器,其能耗更低,还能在笔记本电脑或智能手机上本地运行。
快速生成高质量图像的能力对于创建逼真的模拟环境至关重要,这些环境可用于训练自动驾驶汽车避开不可预测的危险,从而使其在真实街道上更安全。
但用于生成此类图像的生成式人工智能技术存在缺陷。一种流行的模型类型,称为扩散模型,能够生成极其逼真的图像,但速度太慢且计算量过大,不适合许多应用。另一方面,像 ChatGPT 这样的大型语言模型所采用的自回归模型速度要快得多,但生成的图像质量较差,常常错误百出。
麻省理工学院和英伟达的研究人员开发了一种新方法,将这两种方法的优势结合起来。他们的混合图像生成工具首先使用自回归模型快速捕捉整体画面,然后使用一个小的扩散模型来细化图像的细节。
他们的工具名为 HART(混合自回归变压器的缩写),能够生成与最先进的扩散模型质量相当甚至更优的图像,但速度却快约九倍。
生成过程所消耗的计算资源比典型的扩散模型要少,这使得 HART 能够在商用笔记本电脑或智能手机上本地运行。用户只需在 HART 界面中输入一个自然语言提示即可生成图像。
HART 可能会有广泛的应用,比如帮助研究人员训练机器人完成复杂的现实任务,以及协助设计师为视频游戏制作引人注目的场景。
“如果你在画一幅风景画,只用一种笔触把整个画布涂一遍,可能效果不会太好。但如果你先画出大体轮廓,然后再用更小的笔触去细化画面,你的画作可能会好看得多。这就是 HART 的基本理念。”麻省理工学院 2022 届硕士、2025 届博士生唐浩天说道,他是关于 HART 的新论文的共同第一作者。
他与共同第一作者、清华大学本科生吴业成,资深作者、麻省理工学院电气工程与计算机科学系副教授、麻省理工学院 - IBM 沃森人工智能实验室成员、英伟达杰出科学家宋瀚,以及来自麻省理工学院、清华大学和英伟达的其他研究人员共同开展此项研究。该研究将在国际学习表征会议上发表。
两全其美
诸如 Stable Diffusion 和 DALL-E 这类流行的扩散模型以生成高度细节化的图像而闻名。这些模型通过一个迭代过程生成图像,在此过程中,它们对每个像素预测一定量的随机噪声,然后减去噪声,接着重复预测和“去噪”的过程多次,直到生成一张完全没有噪声的新图像。
由于扩散模型在每一步都会对图像中的所有像素进行去噪处理,且可能有 30 步或更多,因此该过程缓慢且计算成本高昂。但由于模型有多次机会去修正之前出错的细节,所以生成的图像质量很高。
自回归模型常用于预测文本,它们可以通过依次预测图像的补丁(每次几个像素)来生成图像。它们无法回溯并纠正错误,但这种顺序预测过程比扩散过程快得多。
这些模型使用被称为标记的表示形式来进行预测。自回归模型利用自动编码器将原始图像像素压缩为离散标记,并从预测的标记中重建图像。虽然这提高了模型的速度,但在压缩过程中发生的的信息丢失会导致模型生成新图像时出现错误。
借助 HART,研究人员开发了一种混合方法,该方法先使用自回归模型预测压缩的离散图像标记,然后使用一个小的扩散模型预测残差标记。残差标记通过捕捉离散标记遗漏的细节来弥补模型的信息损失。
唐说:“我们在重建质量方面能够实现巨大的提升。我们的残差标记学习高频细节,比如物体的边缘,或者人的头发、眼睛或嘴巴。这些地方是离散标记容易出错的地方。”
由于扩散模型仅预测自回归模型完成工作后的剩余细节,因此它只需八个步骤就能完成任务,而标准扩散模型生成整个图像通常需要 30 步或更多。这种额外扩散模型的极小开销使 HART 能够保持自回归模型的速度优势,同时显著增强其生成复杂图像细节的能力。
他补充道:“扩散模型要完成的任务更简单,因而效率更高。”
超越大型模型
在开发 HART 期间,研究人员在将扩散模型有效地整合到自回归模型中以增强其性能方面遇到了挑战。他们发现,在自回归过程的早期阶段引入扩散模型会导致误差累积。相反,他们最终的设计是仅在最后一步应用扩散模型来预测剩余的标记,这显著提高了生成的质量。
他们的方法结合使用了一个拥有 7 亿参数的自回归转换器模型和一个拥有 3700 万参数的轻量级扩散模型,能够生成与拥有 20 亿参数的扩散模型同等质量的图像,但速度却快约九倍。其计算量比最先进的模型少约 31%。
此外,由于 HART 使用自回归模型来完成大部分工作——与驱动大型语言模型的模型类型相同——因此它更易于与新型统一的视觉语言生成模型集成。在未来,人们或许能够与统一的视觉语言生成模型进行交互,比如要求它展示组装一件家具所需的中间步骤。
大型语言模型是各类模型(比如多模态模型和能够推理的模型)的良好接口。这是将智能推向新前沿的一种方式。一个高效的图像生成模型将开启诸多可能性,”他说道。
未来,研究人员希望沿着这条道路继续前行,在 HART 架构之上构建视觉语言模型。由于 HART 具有可扩展性和对多种模态的通用性,他们还希望将其应用于视频生成和音频预测任务。
这项研究部分得到了麻省理工学院 - IBM 沃森人工智能实验室、麻省理工学院和亚马逊科学中心、麻省理工学院人工智能硬件项目以及美国国家科学基金会的资助。用于训练此模型的 GPU 基础设施由英伟达捐赠。