中国接受率仅为13%，可解释性和模型分析成为“新趋势”丨EMNLP 2020 开幕

AMiner学术搜索和科技情报挖掘

于 2020-11-17 16:53:44 发布

阅读量1.5k

点赞数 1

分类专栏： AMiner会议论文推荐 AMiner会议文章标签：机器学习人工智能自然语言处理

本文链接：https://blog.csdn.net/AI_Conf/article/details/109745485

版权

AMiner会议论文推荐同时被 2 个专栏收录

240 篇文章 18 订阅

订阅专栏

AMiner会议

129 篇文章 7 订阅

订阅专栏

AMiner平台（https://www.aminer.cn）由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

北京时间11月16日晚间，EMNLP 2020在线上开幕。

作为国际语言学会（ACL）下属的 SIGDAT 小组主办的自然语言处理领域的顶级国际会议。EMNLP 每年举办一次，去年则与 IJCNLP 联合，在香港举办，今年由于疫情转为线上举办。

数据一览：中美提交双雄

在这里插入图片描述

据EMNLP2020大会组联合主席，英国沃里克大学教授Yulan He介绍：本次大会共收到投稿3677份，其中3359份有效投稿。

相较于EMNLP2019显著提高了26%，使得本次大会成为NLP大会中约稿数量最高。录取率率和往年保持相似水平，EMNLP2020在主会议接受了752篇投稿，其中有长篇602篇，短篇150篇。上图展示了总接受率和长篇与短篇的接受率，和过去的三届大会保持一致。

另外，长篇论文接受率24.6%与前几届大会相似，而短篇论文接受率与过去两年相比偏低，但和EMNLP2017相似。
在这里插入图片描述

投稿来自57个不同的国家，上图展示了投稿数量超过十篇的国家。

其中中国和美国有超过1000篇投稿，英国、新加坡和丹麦有超过30%的接受率，美国也有27%的接受率。而中国的接受率只有13.2%，远低于大会的平均率。
在这里插入图片描述

另外，根据AMiner统计，入选EMNLP2020论文最多的学者是来自阿里巴巴达摩院的邴立东老师和Salesforce AI研究院的Caiming Xiong老师，共9篇论文入选。
在这里插入图片描述

从每篇论文作者数量来看，EMNLP2020接收的论文大多数都有3-4个作者，其中有3个作者的共有175篇，有4个作者的共有171篇，拥有10个作者及以上的论文共有11篇，最多的1篇文章拥有21个作者。

数据来源：AMiner

今年EMNLP引入了一本新的姐妹刊出版物叫做《EMNLP研究》，上图展示了主会议和《研究》接受论文的平均评审得分。看到这样的评审得分双峰图分布十分有趣。大多数主会议接受论文有超过3.67的平均评审得分。平均分超过3.5的论文有一个大致均等的被接受到主会议机会。论文平均分在3.17~3.5之间的更有可能被《研究》接纳。
在这里插入图片描述

投稿被分为20个主题。就主题而言，有8类主题收到超过200篇投稿。NLP的机器学习和NLP应用有超过300篇投稿，机器编译、信息萃取、对话系统、语言生成和成句级别的语义学也超过了20篇。

如上图所示，NLP可解释性和模型分析主题的投稿数量有显著上升。这是ACL2020新引入的主题，收到95篇投稿。但在EMNLP投稿数字翻倍了，展现了社区在对NLP可解释性和模型分析这一主题上的兴趣增长更为迅速。
更小的主题例如语音学、形态学和字词分割、句法学、词汇语义学和语言理论有超过27%的接受率。

除了有超过200篇的大投稿量，可解释性主题的投稿接受率也有27%。对于《研究》的接受率，在大多数主题都有15%左右的接受率，其中一些主题接受率超过20%，甚至接受率最高的主题是句法学，接受率超过了30%。

审稿过程：作者即审稿

在Yulan He介绍完整体数据之后，本次评审之一，墨尔本大学教授Trevor Cohn介绍了本次会议的投稿过程。

对投稿格式和审稿格式做了很多改变。本次评委会有超过3000名成员，评委工作正如往年大会一样，按照分级结构标准开展。改变了一件事就是要求所有投稿至少提名一位作者作为审稿人。随后把他们分入不同研究领域，将更有经验的审稿人编入最终审稿库。

对每位审稿人也使用他们的语义学学术资料数据来抓取他们的论文以得到他们之前的出版物记录，通过这样的方式能识别出更多的高级审稿人。
在这里插入图片描述

再次给你们展示数据库中的一个想法。上图展示了每个审稿人过去出版物的数量。发现大部分审稿人都有大量论文，他们都是研究的“行家里手”。也发现两侧有一些数据偏离的学者，可能是由于没有语义学学术资料或者可能和其他研究者重名。从这份数据，可以高精度的识别那些有大量论文并且有博士学位的个人。将他们称之为星级审稿人并且确保每一篇论文都被至少一位星级审稿人审阅。

审稿要求使用的自动化算法与ACL相似。这建立在投稿和审稿人之间的大致相似性上。论文确认之后交给匹配算法做一个受限的优化选择来保证尊重审稿人的负担限制以保证审稿质量。对审稿任务和区域主席分配都这么做并且这些任务被高级区主席团手动调整。总体上认为这项工作完成的很出色因为移除了强制性命令这个额外之举。

本次论坛的其他改动是：
一是对每篇投稿都包括一份再现性清单，评审必须给一个再现性清单分数并且回答反馈问卷这个再现性清单是否有用，其中78%回答有用或者某种程度上有用。根据再现性清单，投稿大体上都提供了更多的信息。ML的再现性挑战，EMNLP正在参加其他AI大会例如NeurIPS、CVPR。

二是允许作者提供被拒稿件投稿，作者要展示被拒理由并且解释你如何改正这些问题。通过此改动，349篇此类投投稿论文比其他论文高录取率6%。
三是今年新增加了道德规范要求在投稿审查流程之中。新加了道德政策在CFP中，成立了一个伦理道德委员会，具体的流程包括审稿人确认存在道德风险，伦理道德委员会进行评估提供看法。在之后的大会这会成为一部分，但可能需要改进。本次大会过程中能看到道德审查小组，授权他们给所有投稿论文一个道德陈述。
在这里插入图片描述

最后是审稿质量，首先是审稿人组织过程中的前期筛选和之后的分类对提高审稿质量都有帮助。也会提供详细的审稿指导，是社区中积极的反馈。当然，这也需要社区成员更多的努力完全的来提高审稿质量。
在这里插入图片描述

据介绍，对于《研究》，推出这个刊物的想法来自于ACL审稿委员会。收到社区成员对于博客推送和ACL审稿会议讨论非常有建设性的反馈，正式基于这些反馈，做出如下改变：

1.审稿人不会被问及哪些论文更适合主会议或者《研究》；

2.SAC在纸上列出了他们的推荐排序，有效的提供了大量论文边界线的制定和一个合理的隔断界限；

3.PC们做出最终决定哪些论文在主会议，哪些论文在《研究》。
最后，《研究》上的论文经过匹配会在工作坊展示，通过139个展示表现成果。

最后，为了测量《研究》的成功，在其中超过100篇的投稿中询问作者是否要撤回稿件另寻展会。只有很少一部分作者选择这么做了，最后86%的接受投稿得到了出版。

OMT

此次线上会议，主会议有三天议程，包括一个预录制的视频展示和在线问答环节。所有录用的论文在53个组织好的缩放问答会议和5个集中会议中，这些集中会议是用于模拟线下演讲，就和传统会议一样。也会有全体大会，包括直播的主题演讲、小组讨论会、商务会议、最佳论文颁奖会议和其他会议以及赞助商展示。此外，会有额外两天的成果展示和教程指导。
在这里插入图片描述