NLP——Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

       这是一篇2015年文章

论文的研究点

  1. 目前存在的问题:
       1):在现有的知识库中与文本的对齐方式是启发式的,并且对齐的结果看作是标签数据。但是这种对齐方式有时候会出错,这就导致了错误标签的问题。
       2):在之前的方法中,统计模型主要应用于广告特征,在特征抽取过程中产生的噪声会导致性能较差。

  2. 提出的解决方法: 多实例学习的 PCNNs( Piecewise Convolutional Neural Networks)。
       对问题一,将远程监督关系抽取当做一个考虑了实例标签不确定性的多实例问题
       对问题二,用分段最大池化自动学习相关特征的卷积结构代替特征工程。

研究方法

       网络结构图:主要包括Vector Representation, Convolution, Piecewise Max Pooling and Softmax Output
在这里插入图片描述

       接下里我们看下上述图片中每一步是如何实现的。

1.Vector Representation:

        将输入的词通过词嵌入用低维向量表示,同时将位置信息也表示为向量。
       1.1 Word Embeddings: 在本文中,使用Skip-gram模型来训练词向量。每个词的维度是dw=4
       1.2 Position Embeddings: PF定义为当前词到实体1和实体2之间的相对距离,如下图,son到实体1Kojo Annan和到实体2Kofi Annan的距离分别为3和-2。PF1和PF2是随机初始化的,然后通过位置嵌入矩阵转换为向量,每个向量维度为dp=1。
在这里插入图片描述因此,整个Word Embeddings是一个sd的矩阵,其中s表示句子的长度,d = dw+2dp,之后将该矩阵喂进卷积部分。

2. Convolution:

       在关系抽取中,输入包含目标实体的sentence仅仅对应一个关系类型,而不是预测每个词的label。因此,需要将所有的局部特征联合起来,这就用到了卷积神经网络。
卷积核w:w*d,个数为n
在这里插入图片描述将输入sentence S表示{q1,q1,…,qs}
得到的卷积的输出为:
在这里插入图片描述C = {c1,c2,…,cn}, shape=[n, s+w-1]

3. Piecewise Max Pooling:

        单个最大池化一方面无法获取到细粒度的特征,另一方面无法步骤两个实体之间的结构信息。
        因此,提出了分段最大池化,通过两个实体将卷积核的输出划分为三部分{ci1,ci2,ci3},ci1是实体1前面部分,ci2是实体1和实体2之间的部分,ci3是实体3后面的部分,整个分段i最大池化可以表示为:
在这里插入图片描述       pij表示第i个卷积核的第j部分的最大池化结果。
       对每个卷积核的输出可以得到一个三维的向量pi={pi1,pi2,pi3},将n(卷积核个数)个向量拼接得到p1:n,让其通过一个非线性函数,最后,分段最大池化的输出为一个向量:
在这里插入图片描述       g的长度不再和sentence的长度有关,而只和卷积核的个数有关。

4. Softmax Output:

       为了计算每种关系的概率,将特征向量g喂进一个softmax分类器:
在这里插入图片描述       W1是一个n13n的变换矩阵,o是n11的列向量,n1位关系类型的个数。其中本文也在上一层中加入了正则化项,在前向计算中dropout的比率为p, 将对 g 实行 (g◦r) 操作,其中r是一个r是一个概率为1的伯努利随机变量,于是上式变为:
在这里插入图片描述       输出可以理解为对应每种关系的置信度分数,将该分数通过softmax操作可以得到条件概率。

4. Multi-instance Learning:

       为了缓解错误标签的问题,本文对PCNNs运用多实例学习。基于关系抽取的PCNNs可以看作是一个五元组:
在这里插入图片描述       网络的输入看作一个bag,假设总共有T个bags{M1, M2, …, MT},第i个bag包含qi个实例:
在这里插入图片描述       多实例学习的目标是为了预测未知bag的标签,本文,将一个bag中的所有的实例看作是独立的,给定一个输入实例,网络的输出为对应的关系的分数。为了得到条件概率,对所有的关系类型进行softmax操作:
在这里插入图片描述       多实例学习的目标是为了鉴别bags而不是instances,因此我们定义基于bags的目标函数为:
在这里插入图片描述       其中,j定义为:
在这里插入图片描述       整个算法流程如下:
在这里插入图片描述        使用经过训练的PCNN进行预测时,当且仅当至少一个实例上的网络输出被分配一个正标签时,包才会被加上正标签。

5. Experiments:

dataset::NYT corpus
参数:
在这里插入图片描述结果:
在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值