读完可以回答以下问题:
1. 基于学习的关系抽取的分类?
2. 基于远程监督学习的关系抽取定义,或标注样本的获取方式是什么?
3. 如何解决远程监督学习的噪音问题?
1.基于学习的关系抽取分类:
2. 基于远程监督学习的关系抽取
1)2009年,Mintz等人首次提出将远程监督的思想用于关系抽取。
远程监督是一种利用外部知识对目标任务间接实现监督的过程。
2)远程监督的基本假设:给定一个三元组<s,r,o>,则任何包含实体对<s,o>的句子都在某种程度上描述了该类实体对之间的关系。因此,可以将包含实体对的句子作为正例。
远程监督的标注数据集获取方式:
为某个关系自动标注样本的过程:
1. 从知识库(如Freebase)中为目标关系识别尽可能多的实体对。
2. 对于每个实体对,利用实体链接从大规模文本中抽取提及该实体对的句子集合,并为每个实体对标注相应的关系。
3. 包含实体对的句子集合和关系类型标签构成了关系抽取的数据集,即实体对的训练数据为相应的句子,标签为知识库中的关系类型。
句子的集合被称为句袋(Bag of Sentence)。为每类关系重复上述步骤,可以得到所有关系标签的标注数据。
3)远程监督学习中的噪声问题
基于远程监督学习构造自动训练集会引入很多噪声,即很多没有表达目标关系的句子会被错误地标注为该关系。常用方法包括:深度学习(RNN,CNN和注意力机制等)和强化学习
强化学习的步骤:
1.利用策略选择器选择样本
2.基于这些样本训练关系分类模型
3.将模型对这些样本预测的置信度做为策略的奖励分数
4.该分数将作为策略选择器的质量评估指标更新策略选择器
5.更新后的策略选择器用于选择新的样本进一步优化关系分类模型的训练。
迭代,直到策略选择器样本选择不再变化