Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction

摘要:这篇文章提出了一种新的从无结构文本中进行关系抽取的方式,这种方式从文本和现存知识中抽取关系。

信息抽取目标在于从无结构文本中生成结构化数据来补全知识库。

这篇文章主要关注基于弱监督从知识库(KB knowledge base)中进行关系抽取(RE relation extraction)

关系(RE)抽取是信息抽取(IE information extraction)的子任务,考虑所有的实体通过不同的方式已经被检测出来,比如命名实体识别。关系抽取是在给定一对提取的实体(h,t)作为上下文的情况下,将文本序列中陈述为真的关系对应到知识库中的关系。该任务是弱监督的,因为文本中检测到的每一个实体对(h,t),所有提及的关系都将被标记为知识库中连接h和t的关系,无论是否实际表达是或否。

我们的方法更容易整合到现存的系统中,因为KB数据是通过额外的评分项目来使用的,评分是预先单独训练的,不共享嵌入式表示。此外,我们实验部分展示了我们系统可以处理大量关系。

3 基于嵌入式的框架(Embedding-based Framework)

我们学习两个模型:

1、将文本中提及的关系对应知识库中关系

2、知识库中实体和关系的嵌入式表示向量

上两种模型使得我们可以同时使用文本语料库和知识库信息进行关系抽取

每一个子模型的目标都是学习知识库中实体或关系,或者文本中的单词或特征的嵌入式表示向量

嵌入式到底是什么

3.1 连接文本和关系

Sm2r(m,r)函数:基于嵌入式,对文本中提到的关系m和知识库中关系r的相似性进行评分。

首先将单词和特征投影到嵌入空间,计算这个投影和关系嵌入之间的相似性(文中的点积)

 

f(m)将文本中存在的单词或特征的向量简单的累加,再与r相乘

关系抽取的性能指标有时使用针对同一实体对的所有提及聚合的精确召回曲线(precision recall curves)来测量。在这种情况下,需要校准不同提及的预测分数,以便最有信息的分数越高。

 

转载于:https://www.cnblogs.com/qinxiaoyu/p/9555242.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值