浅谈细粒度实体分类的前世今生 | AI Time PhD知识图谱专题

AITIME论道

于 2020-06-28 20:10:07 发布

阅读量1.9k

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/107011445

版权

本文深入探讨了细粒度实体分类（FGET）的任务定义、与传统命名实体识别的区别、面临的挑战以及相关数据集。FGET旨在为实体提供更精确的语义信息，有助于下游任务如关系抽取和实体链接。文章介绍了几种常用数据集，如FIGER、OntoNotes和UFET，以及处理数据噪音和类别层次关系的方法。此外，还讨论了FGET在关系抽取和实体链接中的应用，以及未来的研究方向，包括跨语言任务和zero-shot学习。

摘要由CSDN通过智能技术生成

AI TIME欢迎每一位AI爱好者的加入！

实体分类是知识图谱构建和补全的重要子任务，其中细粒度实体分类为实体提供了更加丰富的语义信息，有助于关系抽取、实体链接、问答系统等下游任务。

细粒度实体分类是什么？和传统的命名实体识别有什么区别？任务的难点在哪里？采用什么方法解决？目前有哪些数据集可用？未来的发展方向如何？

为解除这些困惑，第四期AI Time PhD知识图谱专题分享的直播间，我们请到清华大学计算机系、知识工程实验室的博士五年级研究生金海龙，为大家梳理了细粒度实体分类任务发展的脉络，并对未来作出了展望。

一、FGET定义及问题

传统的命名实体识别（NER）面向粗粒度的类别，比如人物、地点和组织机构等，对实体的刻画不够精确。

图：命名实体识别（来自medium.com）

实际生活中，我们需要更加细粒的类别来刻画实体，提供更加具体的语义信息，增强指示性，比如篮球员动员和香港歌手等。以关系抽取为例，实体的细粒度类别能很大程度暗示实体间候选的关系。实体类别信息越粗，实体间的候选关系就越倾于复杂，相应的关系抽取任务也变得更困难。于是，下游应用催生了细粒度实体分类这个任务。

细粒度实体分类 (FGET) ：

Fine-grained Entity Typing, 给定候选实体 (Mention) 及其上下文 (Context)，预测可能的类别集合 (Type)。

图片来源：AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding

区别 NER vs FGET：

- 识别边界

NER从文本序列中识别实体的边界和类型，一般当作序列标注任务来处理
FGET任务实体边界通常已经给定，一般当作有层级的多标签分类任务来处理

- 类别层级

NER面向的类别数量较少，因为序列标注问题搜索空间比较大，限制了实体的类别数量
FGET面向几十个或者上百个类别，需要考虑类别之间的subClassOf关系

FGET任务的难点：

（1）远程监督带来的噪音

现有的数据集大多数使用distant supervision方法来构造，将实体mention链接到知识库中的某个实体，并把这个实体在知识库中全部的类别赋予这个mention，这种做法没有考虑mention的上下文，因此会引入噪音。包含上下文无关类别的噪音和过于具体的类别噪音。

对于类别信息单一的实体，类别一般保持一致，这时远程监督方法可以接受。但是对于类别信息复杂的实体，尤其像人物这类实体，我们需要考虑远程监督带来的噪音问题。

（2）类别之间的层次关系

首先，如何得到一个分类树？有了这个分类树之后，我们应该如何建模这种subclassof关系，也是一个难点。

二、FGET相关数据集

下表是目前常用的三个数据集：FIGER，OntoNotes和BBN。不同的论文训练集、验证集和测试集的划分会有一些差别，这里参考ACL-20最新的一个工作。类别的数量从几十到上百，类别之间通过subClassOf关系组织成2-3层的树形结构。

1）FIGER数据集

FIGER数据集

最低0.47元/天解锁文章

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。