Attention Pooling-based Convolutional Neural Network for Sentence Modeling

摘要

文章提出了一种基于注意力机制的池化方法,解决了最大池化会丢失信息的问题。同时提出了一种基于该池化方法的,结合了BLSTM和CNN的模型APCNN,使句子向量同时包括前向,后向,和局部信息。
文章地址:Attention Pooling-based Convolutional Neural Network for Sentence Modeling

方法

模型的总体结构如图1。
Alt

图1 APCNN 的架构。BLSTM 用于在池化阶段获得注意力权重,用于将局部表示组成句子表示。虚线表示中间句子表示也将在测试阶段用作 softmax 层的输入。

词嵌入

一个词用 x = L w x=Lw x=Lw表示, w w w表示一个one-hot向量,其中单词出现的位置为 1,而其他位置为 0。 L L L表示词矩阵,其中第i列是词汇表中第i个词的向量表示。

卷积层

最大池化由于只使用最大值,故会丢失特征的位置信息,同时同一特征的强度信息也会丢失,因为它无法区分一个特征是出现一次还是多次出现。
文章提出的attentionpooling操作是在一维空间内,k个过滤器 W c ∈ R m d × k W_c\in R^{md\times k} WcRmd×k和一个连接向量 x i : i + m = 1 x_{i:i+m=1} xi:i+m=1中进行的。 x i : i + m = 1 x_{i:i+m=1} xi:i+m=1表示从第i个单词开始的m个单词的窗口,在相应的特征图中获取单词窗口的特征。d是词嵌入的维度。每个过滤器的参数在所有窗口之间共享。滤器的数量k使用交叉验证确定。
卷积操作的公式为:
在这里插入图片描述
b c b_c bc是一个偏置向量, g ( ⋅ ) g (·) g() 是一个非线性激活函数LeakyReLU。
假设一个句子的长度是T,填充为“same”,具体操作可如图1表示。
Alt

图2 过滤器的窗口大小为 3,权重在不同窗口之间共享。相同颜色的箭头代表相同的权重值

卷积层的输出表示句子的局部表示,每个元素 c i c_i ci是对应位置的局部表示。

attention pooling

通过BLSTM生成中间表示,将卷积层生成的局部表示与其进行比较,以计算注意力权重。中间句子表示与每个局部表示之间的相似度越高,分配给该局部表示的注意力权重就越大。
注意力权重计算为:
在这里插入图片描述
,其中
在这里插入图片描述
函数 s i n ( ⋅ ) sin(\cdot) sin()用于测量其两个输入之间的相似性。
获得注意力权重后,最终的句子表示为:
在这里插入图片描述

注意力池可以看作是对所有单词注释进行加权求和来计算句子注释。每个单词的权重衡量该单词对整个句子含义的贡献程度。
通过将局部表示与中间句子表示进行比较,获得的注意力权重编码了更丰富的句子信息。
通过attention pooling,可以保留特征的位置和强度信息。

并行CNN

文章使用了具有不同卷积窗口大小的滤波器来形成并行CNN,以便它们可以学习多种类型的局部区域嵌入,从而相互补充以提高模型精度。具体如图3所示。
Alt

图3 并行卷积过程的说明。它涉及具有不同卷积窗口大小的H个并行卷积层,并且每个层都有k个过滤器。每个卷积层后面跟着一个注意力池层,以生成不同的句子表示。然后将H个不同的表示连接起来形成最终的表示向量

实验

使用了7个常用的用于句子分类的基准数据集。
在这里插入图片描述
APCNN 与其他方法在基准数据集上的分类准确度结果如下:在这里插入图片描述
可以看出APCNN 在所有任务中始终优于其他系统,可以认为注意力池策略帮助新模型优于基于最大池的 CNN 方法,因为它可以提取句子中包含的最重要的信息。BLSTM模型和卷积结构的结合使模型能够提取全面的信息,即序列中任何位置的历史、未来和局部上下文。
在敏感性分析中,文章认为不同数据集的最佳过滤器窗口大小可能不同,对于句子较长的数据集,需要较大的窗口。特征图的数量对模型的学习性能有很大的影响。
在池化策略比较实验中,注意力池策略在所有数据集上都优于所有其他池策略。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值