AMiner 会议论文推荐第二期

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。


IJCAI 2020 论文推荐

Evaluating and Aggregating Feature-based Model Explanations

基于特征的模型解释表示对于给定的数据点,每个输入特征对模型输出的贡献。随着提出的模型解释功能的数量增加,缺乏定量的评估标准来帮助研究人员知道何时使用哪种解释功能。
本文提出了基于特征解释的定量评估标准:低敏感性,高忠诚度和低复杂性。作者设计了一个聚合解释函数的框架,并且开发了一种用于学习具有较低复杂度的聚合解释函数的程序,然后推导了一个新的灵敏度最小化的聚合Shapley值解释函数。

论文链接:https://www.aminer.cn/pub/5eb78919da5629cf244303c0?conf=ijcai2020

Alt

NeurIPS 2020 论文推荐

Unsupervised data augmentation for consistency training

半监督学习在标签数据稀缺的情况下改善深度学习模型方面显示出了很大的潜力。最近的方法中,常见的是对大量的未标记数据使用一致性训练,以将模型预测约束为输入噪声不变。
在本文中,作者提出了一种如何有效地对未标记示例进行噪声处理的新观点,并指出噪声的质量,特别是由高级数据增强方法产生的噪声,在半监督学习中起着至关重要的作用。
通过用高级数据增强方法代替简单的噪声处理,所提方法在相同的一致性训练框架下,对6种语言和3种视觉任务都有了显著的改进。在仅带有20个标记示例的IMDb文本分类数据集上,该方法实现了4.20的错误率,优于在25000个标记示例上训练的最新模型;在标准的半监督学习基准CIFAR-10上,该方法优于所有以前的方法,仅4000个示例就达到了2.7%的错误率,几乎与在50000个带标签的示例上训练的模型的性能相当。除此之外,它还可以很好地与迁移学习相结合,例如,当从BERT微调,并在高数据的情况下,如ImageNet,无论是只有10%的标记数据或是使用一个带有1.3 M额外未标记示例的完整标记集,都实现了改进。

论文链接:https://www.aminer.cn/pub/5f0bde8e9e795ea206ff8ef5?conf=neurips2020

Alt

EMNLP 2020 论文推荐

ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues

预训练语言模型的使用已成为改善对话系统的有希望的方向。但是,会话数据和普通文本之间语言模式的根本差异使现有的预训练语言模型不如已证明的那样有效。最近,有一些基于开放域对话的预训练方法,它们利用了Twitter或Reddit等大型社交媒体数据。另一方面,由于长期存在的关键数据稀缺问题,很少讨论面向任务的对话预训练。
在这项工作中,作者结合了九种基于英语的,人与人的,多回合的和面向公众的面向任务的对话数据集,以进行语言模型预训练。实验结果表明,文中提出的预训练面向任务的对话BERT(ToD-BERT)在意图检测、对话状态跟踪、对话行为预测和响应选择四个下游面向任务的对话应用程序中优于BERT和等强基线。此外,模拟的有限数据实验的结果表明ToD-BERT具有更强的单发能力,可以缓解面向任务的对话中的数据短缺问题。

论文链接:https://www.aminer.cn/pub/5e982ccd91e0119e8a9524cb?conf=emnlp2020

Alt


想要查看更多精彩会议论文合集,请移步AMiner顶会