文献阅读(60)ACL2021-Attention Calibration for Transformer in Neural Machine Translation

本文是对《Attention Calibration for Transformer in Neural Machine Translation》一文的浅显翻译与理解,如有侵权即刻删除。

更多相关文章,请移步:
文献阅读总结:自然语言处理

Title

《Attention Calibration for Transformer in Neural Machine Translation》

——ACL2021

Author: 卢宇

总结

文章认为基于transformer架构的方法在自然语言处理领域已经广泛使用,但其内部的attention机制是否能够有效捕捉到输入的决定性位置还有待商榷。因此,文章设置了攻击器,通过对注意力层的权重进行掩码,试图通过最少量掩码来得到最大化效果降低来攻击注意力权重的分配。而后,对注意力权重进行校准,使其尽可能集中于决定性的输入位置。

1 背景

文章目的在于重新校准注意力的权重分配,并举例说明了原始注意力权重学习的不稳定性:

在这里插入图片描述

注意到,在给定目标词“in”后,注意力权重可以发现“countryside”是其决定性输入,对于这一正确的判断,算法可以进一步加强其权重。而当给定目标词“death”后,传统的注意力却将权重分配给了,对于这一错误的判断,算法可以对权重进行校准,将更多的权重分配给“traffic”和“interruption”。

该算法完全采用了transformer的架构,对于每一层的自注意力机制,给出了简单介绍:

在这里插入图片描述

对于给定的输入h,首先将其映射为键向量Key和值向量Value,在第t个位置,再将前一层的隐藏状态映射为查询向量q_t,用q来查询K作为权重,并与得到的V相乘,就得到了经由注意力加权后的结果。

整个模型由两部分组成,首先是对注意力权重的掩码扰乱,而后是对注意力权重的校准,其流程如下:

在这里插入图片描述

2 掩码扰动

掩码扰动的目的在于,通过尽可能小幅度的掩码,来造成最大化的效果下降,即攻击注意力机制的最薄弱部分。对于任意位置,经过掩码扰动后的注意力权重可计为:

在这里插入图片描述

其中,u_0为均匀分布,而m_t即为第t层的保留幅度。m_t越小,意味着对该位置的掩码扰动越大。这一掩码幅度也是通过注意力权重计算的:

在这里插入图片描述

与基本的注意力层不同的是,此时的权重要通过矩阵W的再次加权,换言之可以理解为建立在注意力上的注意力权重。掩码部分损失函数如下:

在这里插入图片描述

前一部分即基础模型面向机器翻译预测任务的损失函数,区别在于其权重是掩码后的结果。该部分的结果加了符号,目的即使得掩码后的结果尽可能差。后一部分为罚项,是约束掩码的幅度尽可能小,即:

在这里插入图片描述

这一优化目标对应上文,试图以尽可能小的掩码幅度来最大化降低模型效果。换言之,就达到了攻击注意力机制最薄弱部分的目的。在实际过程中,如果扰动到了重要的词,那么翻译效果下降,如果扰动掉了干扰词(也就是修正了原来的attention分数),那么翻译效果上升。

3 权重校准

该部分会对注意力的权重进行重新校准,使得其尽可能集中于个别的几个决定性位置。在上文用掩码扰动后,会根据掩码幅度来重新校准权重如下:

在这里插入图片描述

事实上,掩码扰动的优化过程中,越薄弱的地方会得到越小的保留幅度,即掩码扰动越大,那么对该位置的校准权重也应当越大。换言之,在优化时,越重要的关键性位置,越容易得到掩码,而掩码扰动越大(即保留幅度越小),就意味着该位置对最终效果的贡献越大。因此,就应当进一步增强该位置的权重,使其得到更多关注。

而后,会将原始权重和校准权重进行结合,得到最终的注意力权重。文章结合的方式有三种,分别为固定权重加和,退火学习,门控机制。其公式如下:

在这里插入图片描述
在这里插入图片描述

固定权重加和即为校准权重分配一个参数,控制校准权重的参与比例。退火学习指的是掩码扰动在训练初期效果可能较差,随着步数的增加,校准权重的参与比例会越来越大。门控机制即构建一个门控g,通过可学习的参数W和b来动态控制原始权重和校准权重的参与比例。

4 训练

文章提到,基础模型(即NMT机器翻译任务目标)和扰动模型是同时训练的,其损失函数如下:

在这里插入图片描述

注意到,此处使用的权重是结合后的权重,即模型在训练过程中,一边扰动和校准权重,一边将结合后的权重再次优化。

此外,文章除了基本的实验对比外,还讨论了两个问题:(1)什么样的注意力权重需要被校准?是浅层还是深层?是低交叉熵还是高交叉熵?(2)校准后的权重是更集中了还是更平均了?文章结合具体实验现象分析,详细讨论了这两个问题,在此不再赘述。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值