transformer论文解读

论文动机:

        使用Transformer模型实现更好且更易并行化,训练时间更少的机器翻译任务。

创新点

        1.不使用卷积和循环,完全基于注意力机制的序列转换模型,用多头自注意力替代了编码器-解码器架构中常用的循环层。Transformer模型使用堆叠的自注意力和逐点全连接层作为编码器和解码器

        2.使用Transformer模型能够相比ConbS2S和ByteNet减少一定数量的操作

        3.通过Multi-Head Attention可以抵消有效分辨率降低的影响

        4.通过屏蔽所对应于非法连接的softmax输入值来阻止解码器左向信息流以保持自回归属性

方法

        1.运用Scaled Dot-Product Attention机制

        2.运用softmax函数获取权重、

        3.通过√1/dk来缩放点积

        4.使用训练完的嵌入将输入令牌和输出令牌转换为维度为dmodel的向量,使用训练完的线性转化和softmax函数将解码器输出转化为预测的下一个令牌概率,在两个嵌入层和预softmax线形变换之间共享相同的权重矩阵,在嵌入层中奖权重乘以√dmodel

        5.公式有:①Attention(Q, K, V) = softmax(QK^T / √dk) V。

                        ②MultiHead(Q, K, V) = Concat(head1, ..., headh)WO 其中headi = Attention(QWQi, KWKi, VWVi),投影是参数矩阵WQi ∈ Rdmodel×dk,WKi ∈ Rdmodel×dk,WVi ∈ Rdmodel×dv 和WO ∈ Rhdv×dmodel。

                        ③ PE(pos,2i)= sin(pos/100002i/dmodel) PE(pos,2i+1)= cos(pos/100002i/dmodel) 其中pos是位置,i是维度

                        ④lrate = d^-0.5_model · min(step_num^-0.5, step_num · warmup_steps^-1.5)

自己想法

        1.self-attention被限制为仅考虑围绕各自输出位置中心大小为r的领域来增加最大路径长度到O(n/r)

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值