基于相对位置的自注意力机制------论文研读总结

目录

目录

论文简介与作者

背景(以往缺点与不足)

Transformer模型

缺点

新方法

符号定义与公式

Attention的扩展

相对位置表示法

实验

实验装置

实验数据集

WMT 2014机器翻译任务

GPU处理

实验结果

模型推广

个人总结

备注


论文简介与作者

背景(以往缺点与不足)

不同学者使用不同的方式合并关于元素的顺序位置的信息。

  1. 卷积神经网络固有地捕获每个卷积的内核大小内的相对位置。
  2. RNN在计算隐藏状态ht时,结合其在时间t的输入和先前隐藏状态ht-1的函数直接通过其序列结构捕获沿时间维度沿着的相对和绝对位置。
Transformer模型

既不使用卷积也不使用递归,位置编码,将每个位置用一个向量来表示,然后与元素对应的词向量相加来使得模型可以感知元素地位置信息。

缺点
  1. 没有显式对相对位置建模。
  2. 不一定顺序地考虑输入元素,需要显式地编码位置信息以能够使用序列顺序。

新方法

  1. 提出相对位置编码(Relation-aware):  考虑任意两个元素之间的输入。
  2. 扩展Self-attention机制:  扩展的自注意力机制的Transformer考虑任意两个元素之间的输入

符号定义与公式

Attention的扩展

改为了:

(将边信息传播到子层输出)

eij使用compatib计算,并且比较两个输入元素的兼容性函数

改为:

(在计算兼容性时考虑边)

其中参数是唯一的​​​​​​​

相对位置表示法

边表示相对位置距离。

(边描绘相对位置,裁剪最大距离)

实验

实验装置

tensor2tensor 1库

链接

实验数据集
WMT 2014机器翻译任务

由大约450万个句子对组成的WMT 2014英语-德语数据集

大约3600万个句子对组成的2014 WMT英语-法语数据集

变量:分别使用相对位置和绝对位置表示法,base/big模型,在两个不同数据集上的指标对比。

GPU处理

实验结果

机器翻译实验,结果是每秒的步数减少了7%

WMT 2014英语到德语和英语到法语的翻译任务中,分别比绝对位置表示提高了1.3 BLEU和0.3 BLEU。

模型推广

评估了不同裁剪距离k的BLEU评分

评估两种相对位置表示的BLEU评分

个人总结

将attention扩展(考虑边的兼容性影响,将边的相对位置信息传播到子层),使用相对位置表示法。

备注

以上仅为个人看法,不喜勿喷。

  • 29
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值