©PaperWeekly 原创 · 作者|龚俊民
学校|新南威尔士大学硕士生
研究方向|NLP、可解释学习
论文标题:Hierarchical Entity Typing via Multi-level Learning to Rank
论文来源:ACL 2020
论文链接:https://arxiv.org/abs/2004.02286
引言
细粒度实体标注 Fine-graind Entity Typing(FET)任务是给定一个候选实体 (Mention) 和其上下文 (Context),求这个涉及的可能类别集合 (Type), 。它与实体命名识别 Named Entity Recognition (NER) 任务有几个显著不同在:
在引入统一阅读理解 MRC 框架之前,NER 通常是序列标注任务。它需要模型从一段文本序列中找出实体的边界和实体的类型,以及非实体的边界。序列标注任务搜索空间很大,限制了实体的类别数量通常不会很多。
FET 做的是有层级的多标签分类任务。它的实体边界通常是已经给好了,需要从远程监督的候选标签中找出正确的、符合上下文语境的实体类型集合。它不关心给定上下文是否包含了别的实体。FET 类别有上下层级。比如位置这个一级类别下有行政区、建筑类等等,行政区二级类别下又可以分国家、省份和城市等等。子类别确定了父类别,而父类别又限定了其可能候选的子类别。
过去鲜有研究针对这种类别间的层次树形结构进行建模。他们处理该问题的常用做法是将所有不同层级的类别展平成同一级别,而忽略了树形结构中的子类型有效时其父类型也一定有效的特点。
直觉上看,类别数量更少的粗粒度分类比类别更多的细粒度分类更容易。这种展平的分类方式会增大模型要预测的类别数量。还需要依赖额外的技术手段来解决类别间不独立问题,比如 AFET [1],CLSC [2]。
本论文提出了一种层次化的排序学习框架来解决此类问题。排序模型会针对不同层级,制定不同的边际标准去进行分类。解码器会从粗粒度到细粒度去搜索类型的层级结构,以保证不违反层次结构的特性。结果在 BBN、OntoNotes 以及 FIGER 数据集上达到了 SOTA 水平。
相关工作
FET 过往研究主要专注在以下两个方面:
1. 更好的 mention 表征:从最开始的人工二元特征 [3,4],到分布式表征 [5],再到预训练好的词向量,如 LSTMs [1], CNN [6],和 Attention [7],到后来的预训练语言模型,如 ELMo [8,9] 。本论文用的是 ELMo 的表征方法。
2. 层级标签处理:此前大部分研究都是把标注问题看成是没有用层级结构的多标签分类问题,但有部分研究除外。
AFET [1] 提出了一种适应性的排序学习方法 来让相似的类别具有更小的 margins。NFETC [10] 提出了一种层级损失来给违背层级结构的输出惩罚。[11] 提出了用下级标签的关系来约束标签特征空间的嵌入。HYENA [12] 提出了在类型层级中为某父类别下的子类别排序方法,但它不支持神经网络端对端训练。本论文的从粗到细的端到端的解码方式能严格地保证输出不违背层级特性,从而得到了更好的表现。
针对细粒度实体标注任务,研究者们提出了几种不同的规范化描述方式。比如,类别并非层级构建的 Ultra-fine Entity Typing [13],类别标签是从海量语料中抽取出的短语。也有基于知识图谱中的实体关系构建类别标签体系的 [14],和用实体链接来增强的 [15]。
问题规范化
mention 用一个三元组 表示。其中, 为一个由词组成的上下文句子序列,span 为指定 mention 在句子中的实体边界,其内容为 。给定一个 ,层级类型标注模型要输出一个类型集合 Y。这个类型集合归属于整个类别体系 。
层级类型以一个森林的形式表示。每棵树以一级类别为根,比如 /person, /location 等等。我们用 “/” 作为第零级类型 “entity”的表示,作为所有的一级类别的根,方便把森林连成一棵树。
▲ 不同数据集下的层级类型树,L1,L3 分别表示第一级类别和第三级类别
我们用二元关系 表示类型 是类型