千万别让富坚义博看到这个

明敏 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

先来看一段高清版的《清明上河图》:

37ec107636662b887aaf98b614bc05a8.png

你能看出这幅画与原作的差异吗?

其实,这是AI续画的一段《清明上河图》,一眼望去,这画面还真是有些真 假 难 辨了。

笔墨色彩几乎完全复刻了原作。

无论是房屋树木,还是市集中熙熙攘攘的人群,AI的笔法都抓到了原作的风格神韵,拼在一起乍一看还真认不出来。

03ab550c7d309fc16ecc3d400b4671d6.png

左是原作,右是AI复刻

画质还是38912×2048像素的那种,能直接把画面拉大3、4倍看细节。

喏,店铺里的小人在干啥看得一清二楚,体态和衣着也各不相同。

1582e5a2d6a53c2d582fefebbb6d4132.png

这就是由全华人团队打造的AI——女娲·无限版 (NUWA INFINITY)

只要给它喂一些图片、或是输入一段文字,它就能进行更细致的拓展,最终生成一幅完整的高清图像、甚至是一段流畅视频。

这是它学习了《清明上河图》之后,画出的完整版“大作”。

d639a6b239ef1d71075d087950186ff3.png

论文前脚刚上传到arXiv,推特上就已经引发各路网友狂呼amazing!

764f6eaeec85e1153bcc5cf399dd5883.png

还有油管博主光速更新视频讲解。标题直接用上了“超越DALL·E 2”、“4K”的字眼。

e4a7e20928fa52d963629293924afe01.png

除了续画《清明上河图》之外,微软的经典蓝天白云壁纸,经它之手都能变成无限加长版。

43781429d30fee76e05c0894cab1afee.gif

还能根据文本提示,在图像上加不同元素:要光有光,要雪有雪。(这还真是女娲技能了)

cc57a4607a98ee2e78b4ebcfba01d08c.gif

相较于当下热门的DALL·E、Imagen和Parti,女娲无限版支持生成任意大小的高分辨率图像, 同时还支持生成长视频。

(没错,继AI续写小说热潮之后,现在AI终于也能续画了)

研究人员表示,他们希望这一模型能够帮助创作者们提高生产力。

所以,女娲无限版还有什么大招?

我们一起来看~

风格完美模仿,图像视频生成全搞定

总体来看,这个AI女娲无限版是个全能选手,可以挑战5种高清视觉任务

分别是:

  • 让图像动起来(Image Animation)

  • 根据文本生成视频(Text-to-Video)

  • 根据文本生成图像(Text-to-Image)

  • 图像补全(Image Outpainting)

  • 图像生成(Image Generation)

先来看让图像动起来的效果。

一张静态的沙滩照片经AI之手后,图中的海浪都能自然地拍打海岸,层层叠叠仿佛是真实的景色一般。

c5ecfa406575d6d6485f1563aca9f713.png

5e44d54c1d8cc6dcce7bcc5ffe91f845.gif

一句话生成视频就更让人惊喜了。

这不,给它一个小猪佩奇原版的视频,然后再输入一句话,这位“女娲”就能自己做动画片了。

1b3de1f0b8071e140d53f7b09bada2f8.gif

这效果完全看不出是AI做的啊,分辨率也达到了1280×1024。甚至都能拿去蒙骗小孩子?

(嗯,别让富坚义博看到这个AI……)

abc06ab7c012a3e253fdb04d0d52714f.png

能根据文本搞定视频,当然图像也不在话下。

给AI一张风景照,再输入不同的文本表示,它就能根据需要在照片中加各种元素了。

比如滚滚海浪、群山环绕、星空、云彩等,都可搞定。

c6097fa120af332f407a8b98b551ed07.gif

接下来则是文本图像生成了。这个任务可以说是DALL·E2、Imagen和Parti的“拿手好戏”,也是这段时间几大模型battle的核心。

不过从生成效果来看,NUWA-Infinity也同样“可以一战”。

6c88aabaeb621b3839d052a4fe78faa1.png

“微软已加入战场”

输入“田野上有房子、天空中有云彩”,女娲无限版立刻呈现出了一张景色优美的照片。

分辨率高达4069×1024,仿佛是拿单反真实拍下的一样。

375b749c56a548ea7301388b8b5a9c49.png

最后,就是NUWA-Infinity的核心能力——“续画”了。

补充图像上,这只AI已经挑战了不少世界名画,并且都可以做到几乎以假乱真。

梵高笔下的星空,它能补充浩瀚深邃的画面。

笔触连接的地方十分丝滑,整体画面的协调感也很高。

f597b31b542094e172d8674dc6dbb346.gif

莫奈的名作也能信手拈来。

值得一提的是,原画中人物的影子沿着右下方拉去,AI在补充画面的时候,还非常聪明地在左边补充了太阳。

阳光洒在海面上,波光粼粼的细节都画出来了。

d84335ba03eaac1f3bb908b5ba540d9c.png

除了世界名画以外,风景照片同样也能补全啦。

这效果,仿佛它就在拍照现场,直接把原本的画面搬了上来。

9af2c4dc9e34f13ef1017f7a7d24bb60.png

那么,NUWA-Infinity究竟是怎么拥有“续画”的能力呢?

基于自回归的“无限视觉合成”

与DALL·E和Imagen最大的不同在于,NUWA-Infinity在图像生成上没有采用扩散模型

这是因为,扩散模型虽然在图像生成上效果不错,但它没有办法改变输出图像的大小,包括训练和推理图像的宽高是被预先定义好的。

72440fb827def65cfe5b8ef88a912212.gif

因此,为了让模型学会“续画”,论文提出了一种基于自回归的自回归生成模型(autoregressive over autoregressive generation),训练时将图像被分成很多个小块,然后再对每个小块(patch)分别进行训练。

不过,如果只对这些patch单独训练,容易导致合成图像时出现“不和谐”的结果,例如把头发p到脸上等等。

因此,与一些基于GAN的模型直接对每个patch进行独立训练不同,NUWA-Infinity在进行训练时,有意识地去加强各个patch之间的“依赖性”。

除了对每个patch进行独立训练以外,NUWA-Infinity在推理图像时,还会要求各patch与周围的patch产生“联系”,让生成的图像更具有连续效果。

d76f0dfcbe41807a10ae380e86878b3c.png

当然,推理出图像或视频的步骤,在NUWA-Infinity做不同任务时也不一样。

由于文本是一维数据,图像是二维(宽+长)数据,视频则是三维数据(宽+长+时间),因此NUWA-Infinity在做不同任务时,推理的顺序也不同。

例如,在“补全图像”的过程中,图像推理是一圈一圈向外生成的;而在文本生成图像、或是视频文本生成时,这些推理的顺序又有不一样的变化:

b56cc27e00552f7af99bce7864b3630f.png

不过,NUWA-Infinity也还有一些局限性,例如与DALL·E2和Imagen不同的是,它是在特定数据集(清明上河图、小猪佩奇等)上训练的。

因此,一方面NUWA-Infinity在更一般的数据集上是否也能表现出这么好的效果,还有待佐证;

另一方面,在文本生成图像上,目前作者并没有将它这一能力与DALL·E2和Imagen等模型进行对比,因此在这一任务上并不能说它是最优秀的,只能说生成图像大小上减少了一些限制。

fbe73a92e85edd5bc48eb5eb07e05485.png

作者:代码在尽力肝了

论文的一作吴晨飞(Chenfei Wu),博士毕业于北京邮电大学,现工作于微软亚研院。

在北邮读博期间,他在NeurIPS和ACM Multimedia等顶会上发表过不少与视觉问答(VQA)相关的论文。

835ee2d6e0581ce5cc6b1684597955dd.png

图源北邮计算机学院

共同一作梁健(Jian Liang), 来自北京大学。

值得一提的是,去年被ECCV 2022收录的NUWA论文,也是这两位作者合作产出的。

cf772776e1fe3212020d01ff0c490397.png

此外,来自微软Azure AI团队的Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方跃坚也参与了此次研究,通讯作者则是微软亚研院的高级研究员&研究经理段楠。

对于这项研究本身,有网友调侃:才注册完DALL·E2测试版就看到这个,快跟不上节奏了……

a788c183a2605613e3e7566e49126ff2.png

还有网友大胆想象“有生之年”系列:以这个速度,世纪结束前我们是不是能玩上“可实时生成”的定制VR游戏了?

f2ffe2508412e275096abf77c4ee5be1.png

但对于研究的效果,也有读者怀疑是在“吹牛”,因为这次的“无限版”NUWA还并没有开源。对此作者之一Zhe Gan回应表示:

我们也很想放出代码,正在努力ing。

9aa2dee1ecb56880ce062a6776b2d09c.png

此外也有读者对于AI“续画”的能力提出了疑问:

对于AI来说,到底是“续”一幅画难,还是从0生成一个图像更难?

1b1d84c9ac0d7d6ae2ed4083dd22c5e1.png

你觉得呢?

论文地址:
https://arxiv.org/abs/2207.09814

项目地址:
https://nuwa-infinity.microsoft.com/#/

参考链接:
[1]https://twitter.com/_akhaliq/status/1549954767585173505
[2]https://twitter.com/zhegan4/status/1549970325705658369
[3]https://scs.bupt.edu.cn/info/1027/1798.htm
[4]https://www.youtube.com/watch?v=_KvGSf1y0MU

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值