浅谈细粒度实体分类的前世今生 | AI Time PhD知识图谱专题

AI TIME欢迎每一位AI爱好者的加入!

实体分类是知识图谱构建和补全的重要子任务,其中细粒度实体分类为实体提供了更加丰富的语义信息,有助于关系抽取、实体链接、问答系统等下游任务。

细粒度实体分类是什么?和传统的命名实体识别有什么区别?任务的难点在哪里?采用什么方法解决?目前有哪些数据集可用?未来的发展方向如何?

为解除这些困惑,第四期AI Time PhD知识图谱专题分享的直播间,我们请到清华大学计算机系、知识工程实验室的博士五年级研究生金海龙,为大家梳理了细粒度实体分类任务发展的脉络,并对未来作出了展望。

一、FGET定义及问题

传统的命名实体识别(NER)面向粗粒度的类别,比如人物、地点和组织机构等,对实体的刻画不够精确。

图:命名实体识别(来自medium.com)

实际生活中,我们需要更加细粒的类别来刻画实体,提供更加具体的语义信息,增强指示性,比如篮球员动员和香港歌手等。以关系抽取为例,实体的细粒度类别能很大程度暗示实体间候选的关系。实体类别信息越粗,实体间的候选关系就越倾于复杂,相应的关系抽取任务也变得更困难。于是,下游应用催生了细粒度实体分类这个任务。

细粒度实体分类 (FGET)

Fine-grained Entity Typing, 给定候选实体 (Mention) 及其上下文 (Context),预测可能的类别集合 (Type)

图片来源:AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding

区别 NER vs FGET:

- 识别边界

  • NER从文本序列中识别实体的边界和类型,一般当作序列标注任务来处理

  • FGET任务实体边界通常已经给定,一般当作有层级的多标签分类任务来处理

- 类别层级

  • NER面向的类别数量较少,因为序列标注问题搜索空间比较大,限制了实体的类别数量

  • FGET面向几十个或者上百个类别,需要考虑类别之间的subClassOf关系

FGET任务的难点:

(1)远程监督带来的噪音

现有的数据集大多数使用distant supervision方法来构造,将实体mention链接到知识库中的某个实体,并把这个实体在知识库中全部的类别赋予这个mention,这种做法没有考虑mention的上下文,因此会引入噪音。包含上下文无关类别的噪音和过于具体的类别噪音。

对于类别信息单一的实体,类别一般保持一致,这时远程监督方法可以接受。但是对于类别信息复杂的实体,尤其像人物这类实体,我们需要考虑远程监督带来的噪音问题。

(2)类别之间的层次关系

首先,如何得到一个分类树?有了这个分类树之后,我们应该如何建模这种subclassof关系,也是一个难点。

二、FGET相关数据集

下表是目前常用的三个数据集:FIGER,OntoNotes和BBN。不同的论文训练集、验证集和测试集的划分会有一些差别,这里参考ACL-20最新的一个工作。类别的数量从几十到上百,类别之间通过subClassOf关系组织成2-3层的树形结构。

1)FIGER数据集

FIGER数据集中的类别是从Freebase中挑选出来的,把实体较少的类别进行了合并。FIGER数据集提出较早,存在一些问题,比如训练集较大,但测试集只有500多个样本,不是所有的实体类型都在测试集中出现过。因此在使用时,通常都会重

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值