《知识图谱概念与技术》读书笔记:关系抽取中基于学习的抽取

读完可以回答以下问题:

1. 基于学习的关系抽取的分类?

2. 基于远程监督学习的关系抽取定义,或标注样本的获取方式是什么?

3. 如何解决远程监督学习的噪音问题?

1.基于学习的关系抽取分类:

2. 基于远程监督学习的关系抽取

1)2009年,Mintz等人首次提出将远程监督的思想用于关系抽取。

远程监督是一种利用外部知识对目标任务间接实现监督的过程。

2)远程监督的基本假设:给定一个三元组<s,r,o>,则任何包含实体对<s,o>的句子都在某种程度上描述了该类实体对之间的关系。因此,可以将包含实体对的句子作为正例。

远程监督的标注数据集获取方式

为某个关系自动标注样本的过程:

      1. 从知识库(如Freebase)中为目标关系识别尽可能多的实体对

      2. 对于每个实体对,利用实体链接从大规模文本中抽取提及该实体对的句子集合,并为每个实体对标注相应的关系。

      3. 包含实体对的句子集合和关系类型标签构成了关系抽取的数据集,即实体对的训练数据为相应的句子,标签为知识库中的关系类型。

句子的集合被称为句袋(Bag of Sentence)。为每类关系重复上述步骤,可以得到所有关系标签的标注数据。

3)远程监督学习中的噪声问题

基于远程监督学习构造自动训练集会引入很多噪声,即很多没有表达目标关系的句子会被错误地标注为该关系。常用方法包括:深度学习(RNN,CNN和注意力机制等)强化学习

强化学习的步骤:

1.利用策略选择器选择样本

2.基于这些样本训练关系分类模型

3.将模型对这些样本预测的置信度做为策略的奖励分数

4.该分数将作为策略选择器的质量评估指标更新策略选择器

5.更新后的策略选择器用于选择新的样本进一步优化关系分类模型的训练。

迭代,直到策略选择器样本选择不再变化

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值