【Ian Goodfellow亲授】GAN论文投稿指南,从了解评审要点开始

有许多关于 GAN 如何工作的理论或实证研究论文,关于如何用 GAN 做新奇而有趣的事情的论文(例如关于应用在无监督翻译的第一篇论文),新的度量标准等等。但这个主题不是关于那些。

还有很多关于 GAN 的文章作为更大系统的一部分,比如半监督学习的 GAN,差分隐私,数据集增强等等。这个帖子也不是关于那些 --- 因为他们可以以更大的系统的评测标准来衡量。

这个主题是关于一些新的方法,这些方法一般会使 GAN 更可靠地训练或生产更好的样本。

如何评估GAN论文的新颖性

8481c8f592b7f349aa84a1de5c171db681516edf 我的第一个建议是,GAN 论文的审稿人应该阅读 “ Are GANs Created Equal? ” 这篇文章,它解释为什么这方面的实证工作很难以及如何正确的进行研究。
8481c8f592b7f349aa84a1de5c171db681516edf 另一篇关于背景知识的好文章是 “ A note on the evaluation of generative models ”,它解释了为什么模型可能生成很好的样本但是却有较差的 likelihood,反之亦然,以及其他衡量生成模型指标的问题 。
8481c8f592b7f349aa84a1de5c171db681516edf GAN 论文的一个难点是评估新颖性。 有很多论文提出了 GAN 的改进,但很难跟踪所有这些改进,并区分一种新方法是否真的创新。 试着用 4-5 种方式来重新阐述这个想法,并用谷歌搜索,看它是否已经被提出。
8481c8f592b7f349aa84a1de5c171db681516edf 网上一个好的资源去跟踪这些 GAN 变体是 GAN zoo:https://github.com/hindupuravinash/the-gan-zoo

参考:Ian Goodfellow 推荐:GAN 动物园——GAN 的各种变体列表(下载)

如果提出的方法不是真正的新方法,那么论文可能还是有价值的,但审稿人应

该确保论文正确地 acknowledge 以前的工作。

评估GAN性能的指标


8481c8f592b7f349aa84a1de5c171db681516edf 就指标而言,Frèchet Inception Distance(或其 intra-class 版本)可能是目前评估通用 GAN 性能的最佳指标。 对于除 ImageNet 以外的数据集,使用 Inception 之外的模型来定义距离也是可以的。
8481c8f592b7f349aa84a1de5c171db681516edf 一些专注于特殊情况的论文可能会包含其他指标(例如,具有 Real NVP generator 的 GAN 可以实际上报告准确的 likelihood),但是如果论文没有报告 FID,我希望它能够很好地说明为什么。
8481c8f592b7f349aa84a1de5c171db681516edf 很多论文都鼓励读者通过查看样本来形成他们对论文方法的看法。 这通常是一个不好的迹象。
8481c8f592b7f349aa84a1de5c171db681516edf 我知道使用样本来证明情况有所改善主要是来说明,当前方法可以从以前的技术无法解决的领域生成样本。
8481c8f592b7f349aa84a1de5c171db681516edf 例如,使用单个 GAN 生成 ImageNet 样本非常困难,许多论文显示的基本上是失败的尝试。 SN-GAN 成功地从所有类别制作可识别的样本。 由此我们知道 SN-GAN 是一项重大改进。
8481c8f592b7f349aa84a1de5c171db681516edf (这种改进仍然有可能来自于除了所提出的方法以外的其他因素,例如新的更大的网络架构等等)
8481c8f592b7f349aa84a1de5c171db681516edf 许多论文展示了来自 CIFAR-10 或 CelebA 等数据集的样本,想要让审稿人留下深刻的印象。对于这些我从来不知道我想要寻找什么。这些任务大都解决了,所以他们大部分都失去了意义。
8481c8f592b7f349aa84a1de5c171db681516edf 我也不知道如何将有一种微小缺陷的图像,和另一种图像质量上有不同的小缺陷进行对照——诸如是有一点摇摆(wobble)好,还是一点点棋盘格(checkerboarding)更好?

8481c8f592b7f349aa84a1de5c171db681516edf因此,我通常只会将 CelebA,CIFAR-10 上生成的样本,视为仅是为了对于方法不会崩的完整性检查(sanity-check)。

baseline和复现模型

8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该对任何已经复现了 baseline 的人非常怀疑 。有很多微妙的方法来搞砸深度学习算法,而作者有动机不是非常仔细地检查复现的 baseline。
8481c8f592b7f349aa84a1de5c171db681516edf 通常, 至少有一个 baseline 应该是另一篇论文发表的结果 ,因为其他论文的作者有动机来获得好的结果。 这样评估至少是动机相容的(incentive-compatible)。
8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该检查其他论文复现的模型是否执行了相同任务,并检查他们的 score。因为这种情况非常常见:引用别人论文,然后显示比原论文实际报告的更糟糕的图像 / 分数。

8481c8f592b7f349aa84a1de5c171db681516edf当然,其他领域也会在故意打压(sandbagging)baseline:

074b4f761d1af55927960345e78252c735239fdf

每年当写论文的时候,大家就很方(wu)便(chi)的把 baseline 弄差了

8481c8f592b7f349aa84a1de5c171db681516edf 但我觉得这对 GAN 论文特别不利。
8481c8f592b7f349aa84a1de5c171db681516edf 有时,如果一篇论文研究一项新任务或一项以前研究过的任务中很少评估过的方面,作者有必要实施他们自己的 baseline。 在这种情况下,可能论文的一大半部分应该致力于证明 baseline 是正确的
8481c8f592b7f349aa84a1de5c171db681516edf解释所有超参数来自何处非常重要 。通常新方法看起来像是改进,但其实是因为作者花费了更多时间非正式地优化新方法的超参数
8481c8f592b7f349aa84a1de5c171db681516edf 成就解锁:最大 Twitter 线(thread)长度。 我会另开一贴


原文发布时间为:2018-03-28
本文作者:Ian Goodfellow
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值