PCNNATT

PCNNATT

代码

《Neural Relation Extraction with Selective Attention over Instances》
—基于选择注意力机制的文本关系抽取
作者:林衍凯,刘知远,孙茂松
单位:清华大学
发表会议:ACL 2016

一 论文导读

1.关系抽取简介
2.远程监督关系抽取
3.前期知识

1.关系抽取简介

  • 关系抽取:是从文本中自动获取实体间关系事实的代表性任务。该任务目标是,给定一个包含两个实体的句子,从中抽取出这两个实体之间的联系。
  • 关系抽取是信息抽取的任务之一,在知识图谱的自动化构建和补全方面发挥着十分重要的作用
  • 所以,关系抽取任务对构建知识图谱至关重要。实体关系作为知识库的重要组成部分是进行语义理解的关键,一直以来都受到工业界与学术界的广泛关注。如何从无结构文本数据中自动获取这些结构化知识是最具挑战的任务,

有监督关系抽取
无监督关系抽取
弱监督关系抽取
开放式关系抽取

1.1有监督关系抽取

  • 有监督学习是从标记的训练数据来推断未标注数据类别的机器学习任务
  • 在使用有监督的方法解决关系抽取问题时,一般将关系抽取看做是一个多分类问题,提取特征向量(获得文本表示)后再使用有监督的分类器进行关系分类,所以关系集合是预先定义的,不能发现新的关系。
标注训练样本的表示
设计分类器训练模型
利用模型来预测关系

按照方法和时间,依次分为基于特征向量的方法、基于核函数的方法、基于神经网络的方法,在目前研究中占据主导地位。


1.2.无监督关系抽取

  • 无监督学习是不告诉计算机怎么做,而是让计算机自己去学习怎样做一些事情。

  • 无监督关系抽取方法主要基于分布假设理论,分布假设的核心思想是:如果两个词的用法相似即出现在相同上下文中,那么这两个词的意思相近。相应的,在实体关系抽取中,如果两个实体对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系,基于此理论,无监督关系抽取将两个实体的上下文作为表征语义关系的特征。

  • 无监督关系抽取方法可以发现新的关系,但其发现的新关系往往是相似模板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被用来构建知识库,研究相对较少。


1.3.弱监督关系抽取

弱监督学习是有监督学习和无监督学习的折中,训练数据只有部分标注或者标注有噪声。

  • 弱监督关系抽取主要有两种框架:

  • 1.使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果

  • 2.使用远程监督回标的思想,利用现有知识库中的关系三元组,自动回标三元组中实体所在的文本作为训练数据,由于其训练数据产生过程不需要人工标注,近年来在信息抽取领域得到广泛的应用,同时也是关系抽取的研究热点。

样例:

在这里插入图片描述


1.4.开方式关系抽取

开放式关系抽取是为了处理大量异构网络数据而设计的,其抽取的关系类型不受限制,数量也不定,一般使用句法模板及启发式规则从句子中得到两个概念,并抽取概念间的句子片段作为"关系”,在工业界中的应用较多,学术界的研究工作也在持续进行。

在这里插入图片描述

当前工业界多采用Bootstrapping的框架,该方法首先给定初始种子模板,然后通过多次迭代选取置信度高的抽取结果(此类方法在弱监督关系抽取中也有所涉及)。
在这里插入图片描述


关系抽取的发展趋势:让机器更准确地捕获和建模文本中的关键信息

1.基于特征的关系抽取
文法特征
句法特征
最短依存路径

2.基于神经网络的关系抽取
CNN
RNN
GCN
Transformer
Pre-trained LM
融入外部知识的关系抽取
实体描述信息
实体类型信息
一阶逻辑规则



2.远程监督关系抽取

  • 远程监督回标数据主要基于以下假设:如果两个实体在知识库中具有一定的关系,那么根据同时包含这两个实体的句子,就都能推断出实体对在知识库中具有的关系。
  • 由于语言表达的多样性,远程监督的这种假设往往太过强烈,两个实体出现在同一个句子中并不能表示它们就-定具有某种语义关系。虽然其克服了有监督方法需要人工标注数据 的不足,但也带来了新的回标噪声问题
所以研究远程监督关系的核心问题就是如何降噪

在这里插入图片描述


  • 多示例学习

把训练数据集中每一个数据看做一个包(Bag),每个包由多个示例(instance)构成,每个包有一个可见的标签,而包中的示例没有可见的标签。如果包中至少包含一个标签为正(positive)的示例,则包的标签为正;如果包中所有示例的标签都是负(negative)的,则包的标签为负。多示例学习的过程就是通过模型对包及其包含的多个示例进行分析预测得出包的标签

在这里插入图片描述

  • 关系抽取的目标是获得两个实体之间的联系,而不这是狭义地对句子分类
  • 将远程监督关系抽取看作是一个多示例问题,这样,我们就只需要要求在回标出来的所有句子中,至少有一个句子能表示两个实体间的关系。也就是将一个实体对对应的所有句子看作一个包,其中的每一个句子就是包中的一个示例,从而解决回标噪声的问题。

在这里插入图片描述


远程监督关系抽取的流程

多示例学习指导下的远程监督关系抽取的核心假设:至少一句表达真实关系

多示例包
输入向量化
得到句向量
得到包向量
训练分类器
得到关系

核心问题

得到句向量 -- 》 得到包向量

类比句子分类中每个词对整个句子语义贡献度不同的方案,使用句子级别的注意力机制

这就是PCNN的主要贡献

二 论文精读

噪声问题:使用多示例学习解决噪声问题,再使用句子级别的注意力机制解决句向量到包向量的主要问题

PCNN(Piecewise Convolutional Neural Networks)

分段卷积神经网络
在这里插入图片描述

  • 关系抽取的任务是给两个实体确定语义关系位置特征对这一任务特别重要,因此在向量化表示时,对句子中每个词相对于实体对的位置进行建模。当实体由多个多个词组成时,设定整个实体只占据一个位置

三 代码实现

四 问题思索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值