Abstract
端到端实体连接系统的典型体系结构包括三个步骤:提到检测、候选生成和实体消除消义。
在本研究中,我们调查了以下问题:
(a)所有这些步骤能否与情境化文本表示模型共同学习,即BERT?
(b)在预先训练好的BERT中已经包含了多少实体知识?
(c)附加的实体知识是否已经提高了BERT在下游任务中的性能?
为此,我们提出了一种对实体链接设置的极端简化,它工作得非常好:简单地将其转换为整个实体词汇表(在我们的例子中超过700K类)。我们展示一个实体链接基准
(1)这个模型改进了实体表示普通预算。
(2)它优于实体链接架构,优化任务单独和。
(3)它只仅次于当前最先进的共同提到检测和实体消除歧义。
Introduction
实体链接的目标是,给定一个知识库(KB)和非结构化数据,例如文本,检测非结构化数据中提到的实体的实体,并将它们链接到正确的KB条目。实体链接任务通常通过以下步骤实现:
提及检测(MD):确定潜在实体提及的文本跨度
候选生成(CG):每个提到的候选实体从KB中检索
实体消歧(ED):(通常)混合有用的共引用和一致性特征以及分类器确定实体链接。
在本研究中,我们调查了以下问题:
BERT的架构是否能够共同学习所有实体的链接步骤?
在预先训练好的BERT中已经包含了多少实体知识?(调查这个问题,我们冻结了bert,只训练bert的实体分类器+实体在维基百科)
额外的实体知识是否能提高BERT在下游任务中的性能?
Related Work
Conclusion
在这项研究中,我们研究了一种极其简化的实体链接方法,该方法工作得非常好,并允许我们调查BERT中的实体知识。即使在目前最先进的实体连接方面存在差距时,我们也假设这个差距可以用更大的硬件容量来弥补,以扩大模型的规模和有效的训练时间。除此之外,与之前的所有方法相比,该模型是第一个在没有任何管道或任何启发式方法的情况下执行实体链接的方法。我们发现,通过我们的方法,我们可以在BERT中学习到帮助实体链接的额外实体知识。然而,我们也发现,几乎没有一个下游任务真正需要实体知识,这是一个有趣的观察结果,也是未来研究的一个开放问题。