女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

关注并星标

从此不迷路

计算机视觉研究院

bff207a8412ebe9c034b872a491cf6c2.gif

ed84539446d10088790d96aec6813482.gif

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

b6e38c6654c05c566aa2b9047f58dbbf.png

bd3e0e57bed7733bbabea2d2ca103069.png

论文地址:https://arxiv.org/abs/2111.12417

源代码:https:// github.com/microsoft/NUWA

计算机视觉研究院专栏

作者:Edison_G

最近看到一篇论文,名字首先吸引了,内容大概看了后,觉得还是不错的,今天有幸给大家慢慢分享,有兴趣的同学可以阅读论文,深入继续了解!

一、前言

今天分享的论文,主要提出了一个统一的多模态预训练模型,称为NÜWA,可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。针对不同场景同时覆盖语言、图像和视频,设计了3D Transformer编码器-解码器框架,不仅可以将视频作为3D数据处理,还可以分别将文本和图像作为1D和2D数据进行适配。还提出了3D Nearby Attention(3DNA)机制来考虑视觉数据的性质并降低计算复杂度。在8个下游任务上评估NÜWA。与几个强大的基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外,它还显示了令人惊讶的良好的文本零样本能力——引导图像和视频处理任务。

75880beab2b0502a09c9e2726be99f8b.png

8个任务的案例

二、背景

如今,网络变得比以往任何时候都更加视觉化,图像和视频已成为新的信息载体,并已被用于许多实际应用中。在此背景下,视觉合成正成为越来越受欢迎的研究课题,其目的是构建可以为各种视觉场景生成新的或操纵现有视觉数据(即图像和视频)的模型。

自回归模型【Auto-regressive models在视觉合成任务中发挥着重要作用,因为与GAN相比,它们具有显式的密度建模和稳定的训练优势。早期的视觉自回归模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式进行视觉合成的。然而,由于它们在高维视觉数据上的高计算成本,这些方法只能应用于低分辨率的图像或视频,并且难以扩展。

最近,随着VQ-VAE作为离散视觉标记化方法的出现,高效和大规模的预训练可以应用于图像的视觉合成任务(例如DALL-E和CogView) 和视频(例如GODIVA)。尽管取得了巨大的成功,但此类解决方案仍然存在局限性——它们分别处理图像和视频,并专注于生成它们中的任何一个。这限制了模型从图像和视频数据中受益。


三、NÜWA的表现

  • Text-To-Image(T2I)

84be9975066ffa57508a6c05caf08940.png

一只戴着护目镜,盯着摄像机的狗

02be771980ab08493b697424fdac2a02.png

  • Sketch-To-Image (S2I)

e9c3f398d431a71fffcfe6ffdff4c591.png

草图转图片任务,就是根据草图的布局,生成对应的图片

  • Image Completion (I2I)

97d8fdb099a9f8870c47bd494f6c27a9.png

图像补全,如果一副图片残缺了,算法可以自动“脑补”出残缺的部分

3c35d783dba4c7f0bb47b75d30bbdf69.jpeg

  • Image Manipulation (TI2I)

dc2bf35b5b8ca80aac8b768223c650f4.png

图片处理,根据文字描述,处理图片

例如:有一副草原的图片,然后增加一段描述:一匹马奔跑在草原上,然后就可以生成对应的图片。

7d41357f186ce96dabd0ab0526de6ff3.png

  • Video

8e6010e17ae4b244d44493756b1ae56b.png


四、新框架

c838a3db17023cfa87c2d961b7262594.png

NÜWA模型的整体架构包含一个支持多种条件的 adaptive 编码器和一个预训练的解码器,能够同时使图像和视频的信息。对于图像补全、视频预测、图像处理和视频处理任务,将输入的部分图像或视频直接送入解码器即可。

e970504114e38a555f29a238735a8b1a.png

而编码解码器都是基于一个3D NEARBY SELF-ATTENTION(3DNA)建立的,该机制可以同时考虑空间和时间轴的上局部特性,定义如下:

48ada2f7c0054913ef8b5c54b3be7f7b.png

W 表示可学习的权重,X 和 C 分别代表文本、图像、视频数据的 3D 表示。

3DNA考虑了完整的邻近信息,并为每个token动态生成三维邻近注意块。注意力矩阵还显示出3DNA的关注部分(蓝色)比三维块稀疏注意力和三维轴稀疏注意力更平滑。

  • 3D DATA REPRESENTATION

为了涵盖所有文本、图像和视频或其草图,研究者将它们全部视为标记并定义统一的 3D符号X∈Rh×w×s×d,其中h和w表示空间轴(分别为高度和宽度)中的标记数量,s表示时间轴上的标记数量,d是每个标记的维度。

  • 3D NEARBY SELF-ATTENTION

基于之前的3D数据表示定义了一个统一的3D Nearby Self-Attention (3DNA) 模块,支持自注意力和交叉注意力。首先给出方程中3DNA的定义:

13157b623967f72a08337e8805337798.png

并在如下等式中介绍详细的实现。

8c7290c085183e506acb5de898bfc39b.png

19ba41700e917365a5b3b17c62f6d7d3.png

1a3ca691875677494a61c796f2730ead.png

  • 3D ENCODER-DECODER

开始介绍基于3DNA构建的3D编码-解码器。为了在C∈Rh′×w′×s′×din的条件下生成目标Y∈Rh×w×s×dout,Y和C的位置编码通过考虑高度、宽度和时间轴的三个不同的可学习词汇更新。

12310bbb6fb30ec0b9c656cb85bd51f6.png

然后,条件C被输入到具有L 3DNA层堆栈的编码器中,以对自注意力交互进行建模,第l层在等式中表示:

f96684c37875ba7b9b66145f110d8da2.png

同样,解码器也是一堆L 3DNA层。解码器计算生成结果的自注意力以及生成结果和条件之间的交叉注意力。第l层表示如下等式。

5e6b96f34d9a6fb88822a7127d9906e1.png

五、实验简单分析

8744f45c1422b89871cefac4afebf1d5.png

774063e896d5333759bb5568f467e7f9.png

其他实验可在论文中获取!

bc891fffd536de1e07ecdaeeba798961.gif

END

6de9e245ef563bc0e4634495c889cb7b.gif

5e03ed1540ac31612a3040b8ef99d645.gif

转载请联系本公众号获得授权

18c0acd1e1f53b4c3e9b1f34fcf7dd4d.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

08126c9c64d572137849a478ee0eb517.png

 往期推荐 

🔗

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值