链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf
GitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction
动机
现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:
1、依赖事先训练的命名实体识别工具,而这些工具往往只能识别出少量特定类型的实体,从而限制了领域的扩展;
2、现有方法通常将实体识别和关系抽取分开进行,从而容易造成错误的累积。
3、在通过远程监督方式生成的训练数据中,含有大量的噪音数据,因为其在实体和关系的链接过程中均没有考虑到上下文关系。
贡献
该篇论文的主要贡献分为以下四点:
1、提出了一个新的利用远程监督进行实体关系抽取的框架CoType。
2、提出了一种领域无关的文本分割算法,用来进行文本中 entity mentions 的识别。
3、提出了一个联合嵌入目标函数,用来形式化建模mention-type之间的关联、mention-feature之间的共现关系、entity-relation之间的交叉约束关系。
4、在三个公开数据集上取得了state-of-the-art的效果。
问题定义
给定一个POS标注的语料库D,一个知识库Ψ,一个目标实体类型集合,一个目标关系类型集合,联合抽取的目标就是(1)从语料库D中识别出entity mentions M;(2)利用知识库Ψ生成训练数据;(3)利用和上下文,预测每一个relation mentions的关系类型,以及 entity mentions的实体类型。
方法
模型框架图如下图所示,其方法主要分为四个部分:
1、使用文章中提出的 POS 约束的文本分割算法对POS标注的语料库D进行实体识别,识别出 entity mentions M。
2、从M中生成候选 relation mentions Z,并对每一个 relation mention 进行文本特征抽取,抽取的文本特征见下文。
3、通过联合嵌入,将 entity mentions、relation mentions、文本特征、实体关系类型嵌入到两个空间中去(实体空间以及关系空间),使得在每一个空间中,距离比较近的obje