第四章 实体识别和扩展 阅读笔记
实体(Entity)作为知识图谱的基本单元,也在文本中承载信息的重要单位。实体识别和分析是支持知识图谱构建和应用的重要技术。根据国际公开评测(Automatic Content Extraction,ACE)给出的定义,在文本中对实体的引用可以有三种形式:命名性指称、名词性指称以及名词性指称。狭义来说,命名实体指现实世界中具体或抽象的实体。命名实体的确切含义,只能根据具体应用来确定。
本章内容大多是任务驱动,因此,首先对需要做的任务进行概述,之后,介绍完成这些任务使用的不同方案。
4.1 实体识别和扩展
4.1.1 任务概述
命名实体的任务主要是识别出文本中实体的命名性指称项,并标注其类别。一般来说,命名实体识别的任务就是识别出待处理文本中三大类、七小类命名实体。不同任务对不命名实体类别粒度的需求不同。细粒度实体是被的难点主要是类别多、类别具有层次、标注成本高。
4.1.1.1 实体识别的难点
七类实体中的时间、日期、货币、百分比具有明显规律,较为容易识别,其他三类(人名、地名、机构名)比较灵活,大多需要配合上下文等其他信息配合完成识别。
命名实体的识别过程包括两部份:(1)识别实体边界;(2)确定实体类别(人名、地名、机构名等相关信息)。
命名实体识别的主要难点在于以下几个方面:
(1)命名实体形式多变。命名实体内部结构复杂。例如,人名中虽然对姓氏进行了限制