机器之心整理
机器之心编辑部
公平的审稿、有效的 Rebuttal、先发 arXiv 有优势,这是 NeurIPS 2019 的审稿大招;269 个官方演讲视频、70 页研究者参会笔记,这是 NeurIPS 2019 的「在线参会」福利。
盛大的 NeurIPS 2019 刚刚落幕。今年,NeurIPS 官方总结了大会达投稿情况,并介绍了评审委员会在保证投稿质量、完善投稿机制上的种种探索。与此同时,今年 NeurIPS 官方也提供了演讲视频集,很多研究者分享了他们的参会笔记。
在本文中,我们将回顾 NeurIPS 2019 最为主要的五大模块:论文提交与接收基本情况、限制投稿量的实验、审稿质量统计、官方出品的演讲视频合集,以及一份干货满满的 70 页大会笔记。
因为文章较长,我们可以先概览这些重要结论:
算法、深度学习、应用是最热的投稿关键词,但水论文也多。
发表在 arXiv 上的论文接收率更高,是未发表在 arXiv 上的文章的两倍。
今年大会测试了几项减少被审论文数量的措施,但减少的论文数都非常有限,还有可能错过好论文。
1/3 的论文被其参考文献中引用的大牛审到,这些大牛给出的意见置信度也较高。
吐槽 NeurIPS 给的评审意见太短?统计数据表明:意见长短符合正态分布,和其他大会没有多大差别。
Rebuttal 真的管用:20% 的论文初始分数得以修改,一半左右的投稿至少改变了一个分数。
官方视频集很重要,你可以找到各种杰出论文解读、教程和研讨会。
布朗大学博士生 David Abel 的 70 页大会笔记干货满满,结构清晰,非常值得收藏,每一条笔记都记录了研究背景、主要思想和结论等关键内容(链接我们已经放在最后了,记得收好)。
论文提交、接收基本情况
在过去的五年中,NeurIPS 的投稿量翻了两番。今年,经过筛选后,稿件的数量仍然达到了 6,743 篇(在通知时减少到了 6,614 篇),总计有 4,500 多名审稿人撰写了超过 2 万条评审意见。最终,今年有 1,428 篇论文被录用,录取率为 21.6%。
其中,共有 85 位作者提交了至少 10 篇论文。这些多产提交者的平均录取率为 24.7%,略高于平均录取率 21.6%。
投稿热门关键词:算法、深度学习、应用
今年及去年各领域投稿、录取比例如下图所示(按每个领域中提交论文的数量进行排序)。
从投稿数量可以看出,算法、深度学习与应用是今年投稿论文最集中的几个领域,而概率方法、优化、神经科学则相对冷门。
但在录取率方面,排名靠后的几个领域录取率反而较高。NeurIPS 大会官方对此的解释是,「在提交论文数最多的主题领域中,提交的低质量论文的比例更大并不足为奇。」也就是说,论文多的地方,水论文自然也多。
绝大多数作者没有参与审稿
大会官方表示,提交至本届 NeurIPS 大会的论文出自 15,920 名作者之手。这之中四分之三的人并未受邀担任程序委员会中的任何职务(审稿人,领域主席(AC)或高级领域主席(SAC))。
剩下的四分之一里,有大约 70% 的人接受了邀请加入程序委员会。此外,大多数审稿人也提交了自己的论文。
那么,本届 NeurIPS 中是否存在「搭便车」的现象呢?
如上表所示,这个问题并不严重,在拒绝了审稿邀请的人中,只有四分之一向本届 NeurIPS 提交了论文。这些人中有大概 10%的人提交了五篇甚至更多的论文。
总而言之,在 6,743 篇论文中,至少有一名作者受邀担任委员会成员的论文只有 769 篇,但他们却完全没有参与审稿过程。
领域主席论文多产,接收率也高
现在,让我们再把目光转向没有被列入程序委员会邀请名单的另外四分之三的人。
其中,大约 40% 的作者是没有与邀请名单上的任何人合作提交论文。这些人的投稿数约占总投稿数的 30%,然而接收率却是最低的——仅有十分之一。
正如预期的那样,受邀担任高级职务的人提交了更多论文,并且平均接受率更高。下表统计了 AC 的投稿情况。这一数字在高级 SAC 中更高——平均每位 SAC 提交了 5.24 篇论文,接收率为 34.78%。
来自学术界的审稿人与 AC 的比例约为 70%。
发表在 arXiv 上的论文接收率更高
在本次大会中,过半数(54%)的投稿曾经发表在 arXiv 上,其中有 21% 的论文被至少一位审稿人阅读过。这些被读到过的论文的接收率为 34%,明显高于 21.6% 的整体接收率。相比之下,未曾在 arXiv 上发表过的论文的接收率仅为 17%。
不过也很难理清这其中的因果关系:
一种可能存在的情况是:在 arXiv 上发表过的论文质量更高,因为作者认为它们已经达到了公开分享的标准。
另一方面,这也反映了单盲审稿模式中存在的偏见,即知名作者在 arXiv 发表过的论文更有可能被阅读,并引导审稿人对他们的工作做出积极的评价。
减少或限制投稿量的实验
近年来各个顶会投稿量的激增给审稿人带来了很大的工作负担,导致每次的审稿质量也颇受质疑。因此,NeurIPS 也在考虑采取一些措施限制投稿量,比如如规定每个人投稿数的上限。
在官方博客中,大会放出了一些「如果采纳部分建议后」的假设结果。
审稿之前,先让领域主席筛选
如果在审稿人接手论文之前先让领域主席筛选一遍,能不能有效减轻审稿人负担呢?为了测试这个想法,大会做了一个实验。
他们选了 50% 的领域主席作为实验对象,给每个人分配一些论文,然后让他们在不看审稿意见的情况下,直接选出其中最差的 25%,还要给出每个意见的置信度。
如下图所示,置信度>=5 表示「我确定这篇论文应该被拒」。
结果,这 50% 的领域主席给出了 110 篇置信度>=5 的论文。对比了最后确实被拒的论文,准确率也很高,达到 95.74%。
但问题在于,即使筛掉这 110 篇,或全部领域主席都算上,筛出 220 篇,总共筛选出的论文也不到投稿量的 4%。
所以,这种方法还有待商榷。
限制每个人的投稿数
另一个经常解决方案就是,限制每个人可以提交的论文数。AAAI 甚至已经规定了 2020 年每个作者最多提交 15 篇论文,所以,NeurIPS 也想测试一下这一做法。
下图展示了个人论文提交数目会对 NeurIPS 2019 的投稿量产生怎样的影响:k(X 轴)是每个人作为共同作者身份能够提交的论文数目限制,如 Y 轴所示,这确实导致了投稿量的下降。
由于这是个假想实验,主办方也并不知道真实情况下的作者为了符合政策,都会挑选出哪些论文提交。因此,大会官方让作者在审稿结果公布后再选择,留下他们被接收的论文,然后随机选择 k(最大限制)篇论文。如果某个作者被接收的论文数达不到限制的投稿量上线,大会将从其被拒绝的稿件中随机挑选稿件来补上空缺。
如果将每人的投稿量上限设置为 15 篇(如 AAAI-2020 采取的措施)只能减少不到 100 份投稿(总数的 1.5%)。如果将这一上限设置为 10,则会减少 4.3% 的投稿(减少 850 次审稿工作),但这对最终的接受结果并没有太大的影响。
总而言之,也许将「领域主席筛选」和「限制每个人的投稿数」相结合可以充分降低总投稿数,从而使情况有所不同。但是,在真正实施前,仍然需要进一步考虑一下该怎么具体执行。
只审吸引审稿人注意力的论文
还有一个提议是引入市场机制来控制审稿量。只有那些引起了足够关注的投稿才会被审阅(所谓的「竞标(bid)」机制)。
但下图中的分析表明,这种「竞标」机制很难预测稿件最终的被接收情况。
每篇被接收的论文平均会收到 5.4 份 eager bids,其中有 0.72 来自领域主席。相比之下,被拒绝的论文也收到了 5.1 份 eager bids,其中有 0.64 来自领域主席。如此看来,被接收论文和被拒论文在审稿阶段收获的关注相差无几。
因此,如果规定只有收到至少 3 份以上 eager bids 的投稿才能被审阅,虽然可以减少总投稿量的四分之一,但应该被接收的论文也会被「误杀」1/4,得不偿失。
下表按作者的类别对此进行了细分,如图所示,各个类别之间的 eager bid 数基本持平。
审稿质量统计
审稿人分配
审稿人对论文所在领域的熟悉程度是影响审稿质量的一个重要因素,理想情况是为每篇论文分配该领域的一位大牛审稿。因此,如果提交的论文都能够被在参考文献中出现的人审阅,那审稿质量自然也会高。
为了统计审稿人在所审论文参考文献中出现的频率,NeurIPS 大会统计了提交论文中引用该论文审稿人论文的比例。结果发现,只有不到三分之一的论文引用了审稿人的作品。
不出所料,被引审稿人给出的审稿意见置信度也比较高,因为他们对该领域比较熟悉:NeurIPS 审稿意见的平均置信度为 3.75,大约一半的审稿意见的置信度为 4(对评价结果有信心,但不是绝对确定),但这些被引审稿人给出的意见平均置信度略高于 4,有近 30% 的人的置信度为 5(对评价绝对肯定,对相关工作非常熟悉),几乎是一般审稿人的两倍。
虽然上述情况不太理想,但根据大会的官方统计,有 40.6% 的投稿至少获得了一个置信度为 5 的审稿意见,94.7% 的投稿获得了一个置信度至少为 4 的审稿意见。所以,审稿质量总体来看还算过得去。
为了改进分稿机制,NeurIPS 还与 CMT 合作,允许领域主席为他们正在处理的特定论文招募外部审稿人。如果 AC 无法在常规审稿人池中找到合适的人选,他们可以向外部审稿人发送针对特定论文的审稿邀请。
超过 40% 的领域主席使用了这个机制,发送了近 400 个审稿邀请(其中 80% 被接受)。领域主席还可以手动调整他们任务栈中自动分配的论文,从无冲突的常规审稿人池中手动选择审稿人。
虽然大多数领域主席基本上保留了他们被分配的稿件,但 10% 的领域主席重新分配了至少三分之一的稿件——他们处理的每篇论文平均至少有一名审稿人。
如果领域主席可以手动挑选审稿人,他们会对审稿意见更满意吗?尽管这些外部评审员大多是初级研究者,但答案依然是肯定的。被评为「超出预期」的审稿意见增加了三分之一,被评为「未能达到预期」的评论则减少了一半以上。
NeruIPS 的审稿意见真的太简短吗?No.
大家经常抱怨 NeruIPS 的审稿意见太短,这一次大会统计了 NeurIPS 2019、ICLR 2019 和 COLT 2019 中审稿意见的长度分布。
不出所料,人类生成的文本长度呈对数正态分布,但有趣的是,这些参数在不同的会议和审稿形式中分布非常相似。也就是说,其实 NeruIPS 的审稿意见,并不像直觉上那样「过分简略」。
Rebuttal 真的管用
当你写下反驳意见(rebuttal)的时候,你也许内心在打鼓,初始分数已定,这篇论文重新被接收的可能性有多大?自己所写的反驳意见能够让论文翻盘吗?
如图所示,在重新讨论以后,大约 20% 的初始分数得以被修改。大概 50% 的投稿至少有一个分数改变了。最终,平均方差从 1.27(反驳前)下降到 0.89(最终结果)。
大会还比较了 2018 年至 2019 年之间的参与度指标:讨论期间每篇论文的平均评论数量、平均参与人数、讨论帖子的平均字数。所有的数字都上升了,这表明在这一部分的审稿过程中,整体的参与度有所提高。最重要的是,每篇论文的平均讨论长度增加了 10%。
演讲视频全知道
通过上面一系列分析,虽然论文过多、审稿压力大等「世纪难题」并没有好的解决方案,但我们很欣喜地看到 NeurIPS 2019 有很多优秀的闪光点。我们会发现这样的顶会正朝着更好的方向前进,不论是论文评审的「搭便车」问题、评审质量,还是 Rebuttal 对最终评审结果的影响,它们都在提升。
近期以来,机器之心已经报道过很多 NeurIPS 2019 相关内容。如果读者比较感兴趣某些演讲或研讨会,我们非常推荐 NeurIPS 2019 的官方视频合集,它同时带有 PPT 与演讲者视频,并且还能翻动 PPT 以直接定位视频时间点。
演讲视频集地址:https://slideslive.com/neurips
当然,整个会议有很多亮点,比如说超详细的两小时 AI 硬件入门教程、更偏理论研究的杰出论文、作者针对神经常微分方程(NeurIPS 2018 最佳论文)的最新反思等等。读者可以在视频集中尽情探索,总会有一些能引起我们共鸣的好视频。如下是机器之心之前对大会内容的报道:
2 小时演讲,近 140 页 PPT,这个 NeurIPS Tutorial 真是超硬核的 AI 硬件教程
1.3 万人参会,NeurIPS 2019 获奖论文公布,微软华人学者获经典论文奖
机器之心之前也做了一些线上论文分享,读者们也可以看看其它研究者的视频演讲:
视频 | NeurIPS 2019 分享:清华大学孙富春组提出全新模仿学习理论
视频 | NeurIPS 2019 分享:华为诺亚方舟提出基于少量数据的神经网络模型压缩技术
70 页参会笔记
那么其它研究者眼中的 NeurIPS 是什么样的呢?布朗大学的博士生 David Abel 公开了他的 NeurIPS 2019 参会笔记,他从深度学习理论、强化学习、博弈论和元学习等主题出发记载参会的一些亮点与主要内容。
值得注意的是,整个参会笔记多达 70 页,他记载了很多新研究的背景、观点与解决方案,也是干货满满。
笔记地址:https://david-abel.github.io/notes/neurips_2019.pdf
这里我们主要介绍深度学习理论这一主题的研究。当然这条笔记只是一个示例,更详细的内容可查阅 David Abel 的具体笔记文档。
对于深度学习理论研究,我们首先需要了解的就是 NeurIPS 2019 新方向的杰出论文,作者 Vaishnavh Nagarajan 在大会上做了非常清晰的一个演讲。此外,我们也可以在视频集中找到作者的演讲实录,视频结合笔记,食用效果更佳。
杰出新方向论文:Uniform Convergence may be Unable to Explain Generalization in Deep Learning
视频地址:https://slideslive.com/38921721/track-1-session-1
在这篇论文中,我们首先需要思考,为什么过参数化的神经网络拥有较好的泛化性能?之前研究重点关注一致性收敛与泛化边界,但这篇杰出论文表示,根据一致性收敛理解泛化性误差很可能是局限的。
在 David Abel 的笔记中,一致性收敛的边界即测试误差和训练误差之间的差别,最坏情况下能有多大。在笔记中我们可以看到,这项杰出论文发现一致性收敛边界会随着参数量的增长而增大,因此这样的边界对于深度网络来说太大了。但也有可能一致性收敛边界太小,从而兜不住原始网络。
最终论文作者在问题「一致性收敛能提供泛化能力的完整描述吗?」上,给出了他们的回答,他们相信一致性收敛暂时是做不到的。研究者表示,也许我们需要数学工具来描述深度神经网络复杂的决策边界,需要在一致性收敛之上的一些理论来讨论深度学习。
小编亲身体验来说,这 70 页 NeurIPS 演讲笔记真的非常有结构,每一项演讲的研究问题与背景、研究发现与贡献、主要方法与结果都依次展现出来。这对于我们快速找到喜欢的主题非常重要,找到后我们也能进一步参考演讲视频与论文,更深入地理解研究成果。
最后,这位小哥哥参个会能记 60 多页实质性笔记,并提供一堆参考文献,相信每位参会者都有自己独特的收获,那么你的 NeurIPS 2019 收获是什么?读者可在下方评论与大家分享你眼中的 NeurIPS 2019,你眼中的大会亮点。
参考链接:
https://medium.com/@NeurIPSConf/what-we-learned-from-neurips-2019-data-111ab996462c
https://david-abel.github.io/notes/neurips_2019.pdf
12月18日,机器之心线下技术分享会邀请到来自硅谷专注于 AutoML 领域的 MoBagel 行动贝果的两位重磅嘉宾,为大家介绍全流程 AutoML 技术,详细解读自动机器学习如何实现机器学习的全民化。
在演讲分享之后,我们还安排了 AutoML 实战工作坊,通过实际案例的讲解,帮助大家深入了解全流程 AutoML 技术的商业应用,并抢先亲手体验行动贝果 Decanter AI (数醒™) 自动化机器学习平台。
点击,立即报名。