AI TIME欢迎每一位AI爱好者的加入!
实体分类是知识图谱构建和补全的重要子任务,其中细粒度实体分类为实体提供了更加丰富的语义信息,有助于关系抽取、实体链接、问答系统等下游任务。
细粒度实体分类是什么?和传统的命名实体识别有什么区别?任务的难点在哪里?采用什么方法解决?目前有哪些数据集可用?未来的发展方向如何?
为解除这些困惑,第四期AI Time PhD知识图谱专题分享的直播间,我们请到清华大学计算机系、知识工程实验室的博士五年级研究生金海龙,为大家梳理了细粒度实体分类任务发展的脉络,并对未来作出了展望。
一、FGET定义及问题
传统的命名实体识别(NER)面向粗粒度的类别,比如人物、地点和组织机构等,对实体的刻画不够精确。
图:命名实体识别(来自medium.com)
实际生活中,我们需要更加细粒的类别来刻画实体,提供更加具体的语义信息,增强指示性,比如篮球员动员和香港歌手等。以关系抽取为例,实体的细粒度类别能很大程度暗示实体间候选的关系。实体类别信息越粗,实体间的候选关系就越倾于复杂,相应的关系抽取任务也变得更困难。于是,下游应用催生了细粒度实体分类这个任务。
细粒度实体分类 (FGET) :
Fine-grained Entity Typing, 给定候选实体 (Mention) 及其上下文 (Context),预测可能的类别集合 (Type)。
图片来源:AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding
区别 NER vs FGET:
- 识别边界
NER从文本序列中识别实体的边界和类型,一般当作序列标注任务来处理
FGET任务实体边界通常已经给定,一般当作有层级的多标签分类任务来处理
- 类别层级
NER面向的类别数量较少,因为序列标注问题搜索空间比较大,限制了实体的类别数量
FGET面向几十个或者上百个类别,需要考虑类别之间的subClassOf关系
FGET任务的难点:
(1)远程监督带来的噪音
现有的数据集大多数使用distant supervision方法来构造,将实体mention链接到知识库中的某个实体,并把这个实体在知识库中全部的类别赋予这个mention,这种做法没有考虑mention的上下文,因此会引入噪音。包含上下文无关类别的噪音和过于具体的类别噪音。
对于类别信息单一的实体,类别一般保持一致,这时远程监督方法可以接受。但是对于类别信息复杂的实体,尤其像人物这类实体,我们需要考虑远程监督带来的噪音问题。
(2)类别之间的层次关系
首先,如何得到一个分类树?有了这个分类树之后,我们应该如何建模这种subclassof关系,也是一个难点。
二、FGET相关数据集
下表是目前常用的三个数据集:FIGER,OntoNotes和BBN。不同的论文训练集、验证集和测试集的划分会有一些差别,这里参考ACL-20最新的一个工作。类别的数量从几十到上百,类别之间通过subClassOf关系组织成2-3层的树形结构。
1)FIGER数据集
FIGER数据集