直播 | EMNLP 2020论文解读：从上下文学习还是从实体名字学习？-CSDN博客

「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

神经关系抽取旨在利用神经网络模型进行关系抽取。近年来，神经关系抽取已经在关系抽取任务上取得了 SOTA 的效果。神经关系抽取模型具有强大的编码能力和拟合能力，能够自动抽取特征进行学习。但是目前还没有工作系统地分析过神经关系模型所依赖的特征对模型效果的影响。

本期 AI Drive，我们邀请到清华大学计算机系本科生彭皓，为大家解读其发表于 EMNLP 2020 的最新工作。对本期主题感兴趣的小伙伴，11 月 19日（周四）晚 7 点，我们准时相约 PaperWeekly B 站直播间。

直播信息

本篇工作针对神经关系抽取的两个主要特征（上下文信息和实体信息）进行了分析。我们发现：1）上下文信息是神经关系抽取模型的主要信息来源，同时模型也存在对实体信息的过度依赖问题。而实体信息中大部分是实体类型信息；2）现有的数据集可能会通过实体泄露浅层的启发式信息，这可能也导致了一些关系抽取任务的效果虚高。

基于以上分析，我们提出了采用实体遮蔽的对比学习框架，旨在帮助模型更好的借助上下文信息和实体类型信息，同时避免因为仅仅记住简单的特征造成的模型偏差（bias）。该预训练框架提高了多个场景下神经关系抽取模型的有效性和鲁棒性。

论文标题：

Learning from Context or Names? An Empirical Study on Neural Relation Extraction

代码和数据：

https://github.com/thunlp/RE-Context-or-Names

论文链接：

https://arxiv.org/abs/2010.01923

本次分享首先将陈述关系抽取的背景，之后介绍我们的希望研究的问题以及我们的发现，最后介绍我们针对问题提出的新的基于对比学习的预训练模型。

嘉宾介绍

未命名文件.jpg