摘要:这篇文章提出了一种新的从无结构文本中进行关系抽取的方式,这种方式从文本和现存知识中抽取关系。
信息抽取目标在于从无结构文本中生成结构化数据来补全知识库。
这篇文章主要关注基于弱监督从知识库(KB knowledge base)中进行关系抽取(RE relation extraction)
关系(RE)抽取是信息抽取(IE information extraction)的子任务,考虑所有的实体通过不同的方式已经被检测出来,比如命名实体识别。关系抽取是在给定一对提取的实体(h,t)作为上下文的情况下,将文本序列中陈述为真的关系对应到知识库中的关系。该任务是弱监督的,因为文本中检测到的每一个实体对(h,t),所有提及的关系都将被标记为知识库中连接h和t的关系,无论是否实际表达是或否。
我们的方法更容易整合到现存的系统中,因为KB数据是通过额外的评分项目来使用的,评分是预先单独训练的,不共享嵌入式表示。此外,我们实验部分展示了我们系统可以处理大量关系。
3 基于嵌入式的框架(Embedding-based Framework)
我们学习两个模型:
1、将文本中提及的关系对应知识库中关系
2、知识库中实体和关系的嵌入式表示向量
上两种模型使得我们可以同时使用文本语料库和知识库信息进行关系抽取
每一个子模型的目标都是学习知识库中实体或关系,或者文本中的单词或特征的嵌入式表示向量
嵌入式到底是什么
3.1 连接文本和关系
Sm2r(m,r)函数:基于嵌入式,对文本中提到的关系m和知识库中关系r的相似性进行评分。
首先将单词和特征投影到嵌入空间,计算这个投影和关系嵌入之间的相似性(文中的点积)
f(m)将文本中存在的单词或特征的向量简单的累加,再与r相乘
关系抽取的性能指标有时使用针对同一实体对的所有提及聚合的精确召回曲线(precision recall curves)来测量。在这种情况下,需要校准不同提及的预测分数,以便最有信息的分数越高。