超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型

114332f37dcac8181254ee5b8d0d8583.gif

c2beb078954a2015deaf04f244aa870c.png

8658640b711780581074584909cde359.png

项目网站:

https://krennic999.github.io/STAR/

论文链接: 

https://arxiv.org/pdf/2406.10797

6040ff3542555b9502deb68bbaf827a3.png

背景介绍

通用文本引导图像生成领域近年受到广泛关注,在二次创作, 虚拟试穿和原型设计领域得到广泛应用。艺术家和设计师利用它重新构思和创新现有作品。消费者通过生成图像预览服装和配饰,提升购物体验。设计师能快速生成产品概念图,节省时间和资源。尤其扩散模型(Diffusion)由于其高质量和多元的生成,在文生图领域占有主导地位。通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程及其耗时。

自回归(Auto-regressive,AR)模型通过离散视觉编码器(VQ-VAE,d-VAE 等)将图像转化为离散 token,训练模型按顺序逐个预测新的 token,预测的整个 token map 解码即可得到生成的图像。

受大语言模型的启发,自回归模型在这一领域的应用也逐渐被探索,然而性能仍落后于扩散模型。VAR 指出是因为自回归模型逐个预测 token 的行为不符合图像模态的特点,提出 “next-scale prediction” 范式,将视觉自回归建模为逐个预测更大尺度 scale 的 token map,具体来说,next-scale prediction 基于一系列不同尺度的二维离散 token maps(),在较低分辨率 token map 的基础上逐步生成更高分辨率的 token map:

ee10a781e86657fa32efc6ef2c1ee036.png

这一方式避免了原始基于 next-token 的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度。

这一方法有效地建模了离散图像 token 的二维相关性,然而其仅局限于有限类别引导的生成,无法泛化到未知的实体和概念,除此之外采用的绝对可学习位置编码,导致额外的学习参数,限制了高分辨图像生成的潜力。

为了探索这种新的生成范式在文本控制生成这一开放集任务的表现,作者提出基于尺度的文生图自回归模型 STAR,重新思考 VAR 中的 “next-scale prediction” 范式,以获得性能更好、效率更高的通用文生图模型,为目前扩散模型支配的文生图领域带来新的看法。

e12579907a029f366eb872d7edc74bb0.png

方法核心

具体来说,所提出的 STAR 包括两部分:增强的文本引导和改进的位置编码,以高效地实现高质量图像生成:

a080bf55b9128e088fd044ffdc8fd725.png

增强的文本引导

为了更好地处理各种复杂的文本描述并生成相应的图像,研究者提出几项关键解决方案:

1)文本特征作为起始 token map,根据起始 token map 生成更高分辨率的 token map 这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性

2)在每个 transformer 层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。

具体网络结构如下:

6435e31b22eeb3fe55565ac8223bfc9a.png

24b78eb573537480b439e98448abb9ce.png

归一化旋转位置编码(Normalized RoPE)

对于 next-scale prediction 范式,如何利用同一个 transformer 生成不同尺度的 token map 是一个重要的问题,随之而来的是如何编码这些 token map 中的 tokens 的位置。

传统的正余弦编码难以处理不同尺度的 token map,同时编码多个尺度容易导致尺度之间的混淆。可学习的绝对位置编码需要为每个尺度的 token map 学习对应的位置编码,导致额外的学习参数,提升了训练难度,尤其是大尺度情况下的训练变得更加困难;除此之外固定个数的位置编码限制了更大分辨率图像生成的可能。

研究者提出二维的归一化旋转位置编码(Normalized RoPE),具体来说,对于一个 scale 的 token map ,对于位置 ,归一化的 RoPE 计算可表示为:

7ef067ddbc0786919e8097fdd64ed327.png

任意 token 间的相对位置被归一化到统一的尺度 ,从而确保了对不同尺度的 token map 中的相对位置有统一的理解,避免对不同尺度位置同时编码的混淆,更好地适配 scale-prediction 任务。除此之外,这一新的位置编码不需要额外的参数,更易于训练,为更高分辨率图像生成提供了潜在的可能。

0290206aa6115560bc9dba76ebfb7ee5.png

训练策略

研究者选择先在 256*256 图像上以较大的 batch size 训练生成,随后在 512*512 图像上微调,以获得 512 的生成结果。由于归一化位置编码,模型很快收敛,仅需少量微调即可生成高质量 512 分辨率图像。

12235174bde2cc9a08d92a5315ed12fd.png

实验结果

相比目前的方法,所提出的 STAR 在 FID,CLIP score 和 ImageReward 上表现优异,体现了 STAR 良好的生成真实度,图文一致性和人类偏好。除此之外,STAR 生成一张 512 分辨率的高质量图像仅需约 2.9 秒,相比现有的扩散文生图模型具有显著优势。

具体地,在 MJHQ-30k 上的 FID 达到 4.73,超越了 PixArt- 等模型;CLIP score 达到 0.291,与 SDXL 相当:

34becc41dcc49a2a7fe2e98f3a04a0dc.png

在 ImageReward benchmark 上,STAR 达到了 0.87 的 image reward,与领先的 PixArt- 相当:

0dc94e1651c82a9acf69bacbb20e0871.png

相比现有的方法,STAR 可以生成多元的图像类型,在人物摄影、艺术绘画、静物、风景等场景下均能获得很好的效果,生成的人脸、毛发、材质达到了令人惊叹的细节:

a55841904b1ad088d02228955728ce09.png

f4ac05116e80f956af0ab263fdeb2732.png

结论

STAR 基于 scale-wise 自回归的方式,解决了 VAR 中存在的引导条件有限、位置编码不合理的问题,实现了更高效、性能更好的文本引导图像生成。

广泛的实验证明,所提出的方法在生成图像真实度、图文一致性和人类偏好上均表现优秀。仅需约 2.9 秒的时间内,在 512 分辨率图像生成上,实现超越先进的文生图扩散模型(PixArt-、Playground、SDXL 等)的性能。

总的来说,基于自回归的 STAR 为目前 diffusion 支配的文本控制图像生成领域提供了新的可能,具有里程碑意义。

更多阅读

51fbae42146ef49f961d388db9f46dad.png

094e131a03855b204481b0e461410788.png

c7394ba1211cf726a0f87b157aa771c7.png

dcc96bbc3c048dd2ec0dcd9a6e330ed6.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

4de9df6ff69768210c152311809d0590.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

de0e3c9356bbacedbc76ce45bf5a8f66.jpeg

  • 20
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值