PCNN

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

1. 关键字

关系抽取远程监督

2. 摘要

本文提出了PCNNs,用来解决远程监督关系抽取中的两个问题:一个是在对齐知识图谱时的错误标注问题,一个是使用NLP工具提取特征时的错误传播问题。对于前者,方法是将对齐问题转化为多实例学习问题,从而将实例标签的不确定性纳入了考虑范围;对于后者,采用成对的最大池化层来自动学习相关的特征。

3. 问题

错误标注问题

用远程监督的方法来做关系抽取,需要一个知识图谱来启发式地对齐文本,如果对齐失败,就会出现错误标注的问题。

在关系抽取领域,由于监督方法将关系抽取看作一个多分类问题,所以有一个难点就是如何在已知关系的前提下生成训练样本。Mintz等人提出一个假设,如果在知识图谱中两个实体存在某种特定关系,那么所有包含这两个实体的句子都表达出了这种关系。这个假设有效地为任一关系生成了大量训练样本。但是,很明显,这个假设是有问题的,如果句子中存在“乔布斯”和“苹果”这两个实体,该句子既可能表达出“创始人”这一关系,还可以表达出“离开”这一关系。这就是错误标注问题。

错误传播问题

从监督数据中抽取特征用的都是NLP工具,工具本身不可避免的错误会导致错误传播和累积。一般情况下,关系抽取的语料都是来自于网络,句子长度也都超过40,McDonald证明,句法分析的准确率会随着句子加长而显著降低。所以,错误传播不仅存在,而且会变得严重。

4. 方法论

为了解决错误标注问题,Riedil等人针对多实例学习提出了一个松弛的远程监督假设。在多实例学习中,训练集由一些包(bag)组成,并且每个包中又包含了一些实例(instance)。这些包的标签是已知的,但是包中实例的标签是未知的。多实例学习将实例标签的不确定性纳入了考虑范围,从而聚焦于对包的区分。

为了解决错误传播问题,本文扩展了Zeng等人的方法,由于单个最大池化层将急剧减少隐藏层的尺寸,所以用来捕获细粒度特征过于粗糙,并且也不足以捕获到两个实体之间的结构化信息,本文在单个最大池化层的基础上提出成对最大池化层

5. 模型结构

1573022-20190928232353551-1287769849.png

向量表示

词向量通过look up预训练词向量得到,同时,使用了位置特征来指定实体对,该特征同样被转化为向量。

  • 词嵌入:使用skip-gram模型来训练词向量
  • 位置嵌入:位置特征被定义为句子中当前词到实体\(e_1\)\(e_2\)的距离

每个句子的长度为\(s\),每个词的词向量维度为\(d_w\),加上两个位置特征\(2*d_p\),于是一个词向量的维度就为\(d_w+2*d_p\).

卷积

由于是给整个句子预测关系,所以需要使用所有局部特征并且做一个全局预测,卷积就是一个很好地合并所有特征的方法。

一个句子的维度是\(s*d\),其中\(d\)是词向量的维度。卷积和的尺寸为\(w*d\),当剩下长度不足\(w\)的时候,填充0,于是卷积结果的长度为\(s+w-1\).

当然,为了捕捉到不同的特征,将使用n个卷积核,于是卷积结果为\(c=\{c_1, c_2, ..., c_n\}\)\(c\)的维度为\(n*(s+w-1)\).

成对最大池化

为了捕获到两个实体间的结构化信息,一般的方法都考虑实体的内部上下文外部上下文,其中内部上下文包含了两个实体里面的字,外部上下文则是两个实体周围的字。

于是,根据句子中给定的两个实体的位置将句子划分为三段,这样每个过滤器卷积的结果就被分为三个部分:\(\{c_{i1}, c_{i2}, c_{i3}\}\),然后分别在这三段上分别取最大值。于是,最终最大池化的向量长度是固定的,为过滤器数量的三倍。

softmax输出

最后经过softmax并输出,需要注意的是,训练是由dropout层的,但是测试的时候就不需要了。

转载于:https://www.cnblogs.com/flyangovoyang/p/11604446.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值