1. 背景
实体关系抽取是NLP领域的一个基础任务,在文本挖掘、信息检索、智能问答等领域广泛存在、非常重要。实体关系抽取是指在实体识别的基础上从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组<s,r,o>,其中s为主体(subject),o为客体(object),r属于目标关系集R{r1,r2,r3…}。关系抽取的任务是从自然语言文本中抽取出关系三元组<s,r,o>,从而提取文本信息。
2. 实体关系抽取分类
2.1 关系抽取方法
2.1.1 串联模型/管道模型
实体关系抽取按模型结构主要可划分为管道模型(Pipeline)和联合抽取模型(Joint entity and relation extraction)。管道模型实际上是将实体关系抽取任务拆分为两个子任务,先进行实体识别,再在给定实体和句子的情况下进行完成关系分类任务。Pipeline模型的好处是易于实现,且具有比较高的灵活性,但也存在一些缺点:1.误差积累:实体抽取的错误会进一步影响关系抽取的结果;2.实体冗余:进行关系分类时需要对预先抽取出来的实体两两匹配,在一个句子具有多个实体对时,需要构造多个<sentence,e1,e2>进行多次关系分类,有多个实体对的一个句子会重复编码,与联合抽取相比耗费了更多计算资源;3.交互缺失:忽略了两个任务之间的内在联系和依赖关系。
2.1.2 联合抽取
联合抽取(Joint entity and relation extraction)是将实体识别与关系抽取任务进行联合建模,同时完成实体和关系的抽取。