AI顶会论文“趋势”：对新方法的过度关注，与现实问题的脱节-CSDN博客

作者 | 蒋宝尚

编辑 | 陈彩娴

来自 | AI科技评论

近日，马里兰大学的研究员Hannah Kerner在《MIT科技评论》上分享了她最近在NeurIPS的投稿经历：

“作者为原创的、具有强烈动机的问题提供了一个解决方案，但这个解决方案只是一个应用程序，所以，对于机器学习社区来说，该工作带来的意义有限。”

Hannah Kerner通过这句评审意见，窥探出当前机器学习社区的通病：对新方法的过度关注，导致忽视了真正重要的东西—现实世界的问题。

在这篇《MIT科技评论》文章中，Hannah Kerner直接抛出了一个问题：如果用机器学习解决实际应用问题带来的意义有限，那么我们又应该实现什么目标呢？

Kerner表示，虽然许多“应用向”论文中提出了新的概念和影响广泛的结论。但是，仅仅是“application”一词，评审员就会带有些许“歧视”，导致这类研究在AI顶级会议上被边缘化。

基于这个问题，作者引经据典，论证了这么一个事实：对新方法的过度关注，与现实问题的脱节，方法小幅改进论文的泛滥，其实对AI社区发展弊大于利。

具体而言，作者先借用斯坦福大学「人工智能百年研究」的首份报告:《2030 年的人工智能与生活》对人工智能的目标下了定义；随后，用2012年经典论文《Machine Learning that Matters》论证机器学习社区与现实的区别越来越大；然后，用一系列事实说明了“指标应用错误”的深度学习现状；最后，通过分析机器学习领域的基准数据集与现实完全脱节的现状，论证弊大于利的事实。

整篇文章逻辑清晰，论述合理，尤其是2012年经典论文《Machine Learning that Matters》抛出的问题，直到现在还能够引人深思。

人工智能已偏离目标

在《2030 年的人工智能与生活》报告中提到：人工智能是致力于让机器变得智能的学科，而智能就是使实体在其环境中有远见地、适当地实现功能性的能力。人工智能开发人员正在改进、推广和扩大从当下的智能手机中所建立起来的智能。事实上人工智能领域是一个不断努力推动机器智能向前发展的过程。

而当前，在机器学习领域，“向前发展”往往意味着新算法和新程序，对于深度学习来说，则意味着一个新的网络架构。但是，这种度量方法可能带来的是：简单的增量提升的论文、机器学习学术研究中的奇怪趋势，以及学者争相刷榜。

其中，「简单的增量提升的论文」的论证来自Yoshua Bengio个人博客中的反思文章《Time to rethink the publication process in machine learning》，在文章中Bengio提出：

当前，机器学习领域的研究几乎完全进入了“会议发表”模式，实际上在计算机科学领域，这种模式已经非常常见。会议论文基本上没有像传统期刊论文那样 clean up 的机会，也很少像传统期刊论文那样，能在多次的修订之后提升内容质量。

所以说，表面上看，我们的生产力更高了，但是这种迫于压力的“生产力提高”对论文质量和内容深度造成了破坏。许多可能包含错误、不够严谨或者只是做了简单的增量提升的论文都赶在 Deadline 之前提交了上去。

「机器学习学术研究中的奇怪趋势」的论证来自， ICML 2018 开幕之前，卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 共同发表的一篇名为《Troubling Trends in Machine Learning Scholarship》的文章中，表述的机器学习学术研究中看到的四项奇怪的趋势：

无法在解释和猜测之间做出明确的区分；
当实证实验中得到了改进时，无法确认改进的真正来源，比如过于强调性能提升来源于神经网络架构的非必须的改动，而实际上性能提升是来源于充分的超参数调试；
数学性：使用了很多数学概念和公式只为了混淆概念或者看起来高大上，而不是真的为了做出明确的表达，比如会混淆技术性和非技术性的概念；
语言词汇的滥用，比如用一些时髦的、内涵口语化的词汇，或者给已有的技术词汇增加额外的含义。

「学者争相刷榜的论证」来自于MIT科技评论文章《The field of natural language processing is chasing the wrong goal》，文章中提到的现象：自然语言处理领域正在为了比SOTA提升一两个点而努力。

重要的机器学习

《Machine Learning that Matters》这篇论文来自于ICML 2012，作者在文中指出了目前机器学习研究太过于注重测试数据，如UCI等，而忽略了数据的实际应用领域；同时，目前使用的性能评价指标像AUC、ROC曲线，完全忽略了数据本身的应用背景，提供的是一个数值上的对比，很难保证这个数值在实际应用中有任何意义。例如在植物学领域，80%的准确度也许是一个很不错的结果了，但是即使有99%的准确度显示某类蘑菇是无毒的，我们或许也不敢吃这类蘑菇。性能评价应该结合具体的应用背景才能有其实际的价值。

总体而言有以下几点：

1、特别关注标准数据集，不强调结果在现实世界中的作用和意义，也不强调培养年轻研究者formulate and define features的能力，使年轻研究者无法独立处理新的课题。

2、使用抽象的标准评价研究成果，如准确率，而忽略了问题本身特殊的细节，常常出现跨领域的数值比较。

3、在数据集上运行机器学习算法是很容易的，但是“发现一个机器学习可以提供解决方法、决定应该收集哪些数据、提取或抽取相关特征、选择一个合适的学习算法、选择一个评价方法、对实验结果进行专业的解释、发表成果并劝导人们采用你的方法解决问题并最终有效果”才是有意义的。虽然很困难，但是其中的每一个步骤都是对机器学习之外的世界产生影响而必须的工作。

总结：弊大于利

基于以上观察，在文章中，Kerner表示，当前机器学习模型是根据一些大型、精选的数据集进行衡量，这些数据集往往没有噪音且定义、数据标签明确。所以，深度学习在“世界基本稳定”假设下，往往能很好的解决一些问题。

但是在现实世界中，这些数据标签类别会随着时间的推移，或者地理和文化背景变化而变化。而恰恰应用型机器学习研究人员并没有努力开发新的方法解决现实世界数据的困难，而是一直在创建自己的基准数据集。

这些努力的目标，其实都是为了将现实的问题纳入其他机器学习项目的衡量标准中，但是特定领域的数据集在描述真实场景方面可能并不比现有的数据集好，因此这种趋势带来的结果可能弊大于利。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】
下载二：南大模式识别PPT

后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！