自注意力机制_ACL20 如何使用选择机制提升自注意力网路能力?

论文名称:How Does Selective Mechanism Improve Self-Attention Networks?
论文作者:耿昕伟,王龙跃,王星,秦兵,刘挺,涂兆鹏
原创作者:耿昕伟
论文链接:https://www.aclweb.org/anthology/2020.acl-main.269.pdf

1. 简介

自注意力网络(SANs)在许多自然语言处理任务中取得显著的成功,其中包括机器翻译、自然语言推理以及语义角色标注任务。相比传统的循环神经网络以及卷积神经网络,自注意力网络优势在于其高度的运算并行性以及更加灵活的建模输入元素的依存关系能力。传统的自注意力网络模型在计算每个元素的表示的时候,将所有的输入的元素考虑在内,而不管其对于当前元素的相关性。本问题提出通用的基于选择机制的自注意力网络模型(SSANs),其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。实验结果显示,SSANs模型在多个典型的自然语言处理任务上相比传统的自注意力网络模型获得提升。通过多个探测任务进行分析,SSANs相比传统的SANs模型有更强的词序信息编码能力以及结构信息建模能力。

2. 模型结构

2.1 传统的自注意力网络

现在的自注意力网络是传统的注意力网路的特例,其计算注意力权重的两个元素来源同样的输入序列。给定输入隐层表示,自注意力网络SANs首先将H分别线性变换成、以及。自注意力网络的输出O计算过程如下:dfa9e304c8c8370aebc85b9b9864dae2.png其中是基于点积的注意力机制,其计算过程如下:66e313e6373b07e8bb7a4c5dc778c638.png其中√d是缩放因子且d是隐含层状态表示的维度。传统的自注意力网络结构如图 1所示。

6e5d6b3383786a9f276ec5d21a9b8f68.png图1 传统的自注意力网络框架

2.2 基于选择机制的自注意力网络

相比传统的自注意力网络,本文引入一个选择器模块(Selector),其主要针对每个待计算表示的元素,动态地选择输入元素的集合中的一个子集作为其相关元素集合,基于此集合进行后续的常规的自注意力网络的计算,其整体的框架如图 2所示。

789b31b830c1ce5ebef52bd9c88096ed.png图2 基本自注意力机制的自注意力网络框架

选择器模块 本文使用额外的策略网络参数化选择动作 ,其中表示其对应的元素被选择进行后续的常规的自注意力网路的计算,而则代表相应的元素未被选中。其输出动作序列计算过程如下:056a89dd6bda3ee04fdcc29e64e272fb.png

其中以及是线性变换的结果。本文使用sigmoid作为激活函数计算策略分布。通过使用额外的选择器模块,SSANs的注意力权重计算过程如下:5f1ac19753989227822ad9a01b075200.png

最终基于选择机制的自注意力网络的输出计算过程如下:b500b893517fbc82f62be8016e850c3e.png

Gumbel-Sigmoid 本文使用gumbel-softmax对隐含变量A的梯度进行评估,其主要将离散的采样过程连续化,这样使用正常的BP算法就可以实现对其梯度评估。相比REINFORCE算法,其稳定性更高。本文策略网络使用sigmoid作为激活函数,其可以看作是softmax的特例,从而依据gumbel-softmax函数计算方法,可以推导出gumbel-sigmoid形式如下:9347d97f796d5f3dc1b3735511901240.png其中G'和G''是gumbel noise。

3 实验结果

基于选择机制的自注意力网络模型在三个典型的NLP任务上取得一致的提升。特别的,在机器翻译任务上,SSANs在三个英语到其他语言的翻译上超过传统的SANs模型。在英语=>罗马尼亚以及英语=>日语的翻译任务上,SSANs分别获得+0.69和+0.61 BLEU提升。此外,在相对规模比较大的英=>德翻译任务上,SSANs也获得一致的提升(+0.90 BLEU)。

表1 基于选择的自注意力网络模型在不同任务上的结果

1a16beeb3a2dde63ef4f49e1439d6ffa.png

4 实验分析

4.1 词序信息编码能力评价

为了评价SSANs的对于局部词序信息以及全局词序信息编码的能力,本文引入两个特定的检测任务分别评价模型对于两种类型信息编码的能力。其中,局部词序信息检测任务目标是分类是否句子中存在两个相邻词的进行交换,而全局词序信息检测任务随机选择句子中的某个词语,并将其插入到另一个位置,而任务的目标就是通过分类找到被插入的词汇以及其原来所在的位置。实验结果显示,SSANs在两个任务上,相比传统的SANs,均取得较大的提升。通过分析其相应的自注意力网络权重发现,SSANs能够根据任务将更多的注意力权重分配到重要的信息建模上。

表2 局部信息检测任务实验结果

2be6105be43e0e84554e77233380e6f2.png

4e9ee476071c330a7f7d819b81c1fd57.png图3 局部信息检测任务注意力权重分布表3 全局信息检测任务实验结果

2cd188b8cc90122192a3b16fa85b6f74.png

c2d3176207f7b6dfa6aa67d0fda68abc.png图4 全局信息检测任务注意力权重分布

4.2 结构信息建模能力评价

为了评价SSANs对于结构信息的建模能力,本文首先引入两个检测任务评价模型对于结构信息的捕捉能力。其中一个任务目标是测试模型是否可以根据组合语法树的深度对于输入的句子进行分类,而另一个任务的目标是对输入句子按照其组合语法树根节点之下的成分类型进行分类。实验结果发现,SSANs在两种类型的任务上均取得提升,并且对于复杂的问题有更好处理能力。此外,模型根据注意力网络的权重构建组合语法树,SSANs构建的语法树质量好于SANs模型的结果。

表4 组合语法树深度预测任务实验结果

fee66590e191d7f7bb31029ed62ff89e.png

表5 组合语法树成分类型预测任务实验结果

a6efa3d8b3f69eec3c23c12e8443c865.png

5 结论

本文提出一种通用的基于选择机制的自注意力网络模型,其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。其在多个自然语言任务上,与传统的自注意力网络相比,取得一致提升。通过实验分析发现,基于选择机制的自注意力网络可以在一定程度上缓解注意力网络存在的词序信息编码和结构信息建模能力不足的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值