深度解读DeepMind新作:史上最强GAN图像生成器—BigGAN

640

640?


在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。


在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。


点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第 110 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @TwistedW由 DeepMind 带来的 BigGAN 可谓是笔者见过最好的 GAN 模型了,这里的 Big 不单单是指模型参数和 Batch 的大,似乎还在暗示让人印象深刻,文章也确实做到了这一点。


文章的创新点是将正交正则化的思想引入 GAN,通过对输入先验分布 z 的适时截断大大提升了 GAN 的生成性能,在 ImageNet 数据集下 Inception Score 竟然比当前最好 GAN 模型 SAGAN 提高了 100 多分(接近 2 倍),简直太秀了。

如果你对本文工作感兴趣,点击底部阅读原文即可查看原论文。

关于作者:武广,合肥工业大学硕士生,研究方向为图像生成。

■ 论文 | Large Scale GAN Training for High Fidelity Natural Image Synthesis

■ 链接 | https://www.paperweekly.site/papers/2366

■ 作者 | Andrew Brock / Jeff Donahue / Karen Simonyan


丰富的背景和纹理图像的生成是各类生成模型追求的终极目标,ImageNet 的生成已然成为检验生成模型好坏的一个指标。


在各类生成模型中,GAN 是这几年比较突出的,18 年新出的 SNGAN [1]SAGAN [2] 让 GAN 在 ImageNet 的生成上有了长足的进步,其中较好的 SAGAN 在 ImageNet 的128x128 图像生成上的 Inception Score (IS) [3] 达到了 52 分。BigGAN 在 SAGAN 的基础上一举将 IS 提高了 100 分,达到了 166 分(真实图片也才 233 分),可以说 BigGAN 是太秀了,在 FID [4] 指标上也是有很大的超越。


论文引入


BigGAN 现在已经挂在了 arXiv 上,在此之前,BigGAN 正处于 ICLR 2019 的双盲审阶段,大家也都在猜测 BigGAN 这样的大作是谁带来的。现在根据 arXiv 上的信息,这篇文章的作者是由英国赫瑞瓦特大学的 Andrew Brock 以及 DeepMind 团队共同带来。


拿到这篇论文看了一下摘要,我的第一反应是假的吧?What?仔细阅读,对比了实验才感叹 GAN 已经能做到这种地步了!我们来看一下由 BigGAN 生成的图像:


640


是不是觉得生成的太逼真了,的确如此,图像的背景和纹理都生成的如此逼真真的是让人折服。其实我更想说,BigGAN 做的这么优秀有点太秀了吧!好了,我们进入正题。 


随着 GAN、VAE 等一众生成模型的发展,图像生成在这几年是突飞猛进,14 年还在生成手写数字集,到 18 年已经将 ImageNet 生成的如此逼真了。


这中间最大的贡献者应该就是 GAN 了,GAN 的对抗思想让生成器和判别器在博弈中互相进步,从而生成的图像清晰逼真。SAGAN 已经将 ImageNet 在生成上的 IS 达到了 52 分,在定性上我感觉 SAGAN 已经把 ImageNet 生成的可以看了,我认为已经很优秀了。BigGAN 的生成让我只能用折服来感叹,BigGAN 为啥能实现这么大的突破? 


其中一个很大的原因就是 BigGAN 如它题目 Large Scale GAN Training for High Fidelity Natural Image Synthesis 描述的 Large Scale,在训练中 Batch 采用了很大的 Batch,已经达到了 2048(我们平常训练 Batch 正常都是 64 居多),在卷积的通道上也是变大了,还有就是网络的参数变多了,在 2048 的 Batch 下整个网络的参数达到了接近 16 亿(看了一下自己还在用的 GTX 1080 突然沉默了)。


这个就是 BigGAN 之所以称为 BigGAN 的原因,我想 BigGAN 的题目不仅仅在说明网络的庞大,还想暗示这篇文章会给人带来很大的印象,确实我是被“吓”到了。 这么大的提升当然不可能是一味的增大 Batch 和网络参数能实现的,其中包括了 Batch 的加大、先验分布 z 的适时截断和处理、模型稳定性的控制等,我们在后续展开说明。


按照原文,总结一下 Bi

  • 15
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
围绕 GAN 的研究 的研究 可以分为两条主线,一是 可以分为两条主线,一是 可以分为两条主线,一是 理论主线, 理论主线, 从数学理论上研究如何解决 从数学理论上研究如何解决 从数学理论上研究如何解决 GAN 的不稳定性和模式崩塌问题 的不稳定性和模式崩塌问题 的不稳定性和模式崩塌问题 ,或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 或者从信息理论和基于能量的模型等不同角度重新阐述它。 二 是应用主线, 致力于 将 GAN 应用于计算机视觉领域 应用于计算机视觉领域 应用于计算机视觉领域 、利用 GAN 进行 图像生成 (指定图像合成、 (指定图像合成、 (指定图像合成、 文本到图像,、视频)以及 文本到图像,、视频)以及 文本到图像,、视频)以及 文本到图像,、视频)以及 文本到图像,、视频)以及 文本到图像,、视频)以及 将 GAN 应用于 应用于 NLP 或其它领域 其它领域 。利用 GAN 进行 图像生 成和转换 是当前 研究最多的,并且该领域已经证明了 研究最多的,并且该领域已经证明了 研究最多的,并且该领域已经证明了 研究最多的,并且该领域已经证明了 研究最多的,并且该领域已经证明了 研究最多的,并且该领域已经证明了 GAN图像合成中 在图像合成中 的巨大潜力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值