《Attention Is All You Need》

本文深入探讨Google的Transformer模型,该模型基于注意力机制,替代了传统的RNN和CNN。Transformer中的Self-Attention允许模型捕捉句子的内部结构,Multi-Head Attention进一步增强了这一能力。Feed-Forward Networks和Positional Encoding分别用于增强模型表达力和处理序列顺序信息。文章还讨论了自注意力的优势、正则化策略以及在测试集上使用Beam Search的重要性。
摘要由CSDN通过智能技术生成

本文是对Google2017年发表于NIPS上的论文"Attention is all you need"的阅读笔记.

对于深度学习中NLP问题,通常是将句子分词后,转化词向量序列,转为seq2seq问题.

  • RNN方案

    采用RNN模型,通常是递归地进行 y t = f ( y t − 1 , x t ) y_t=f(y_{t-1},x_t) yt=f(yt1,xt),优点在于结构简单,十分适合序列建模;缺点在于需要前一个输出作为后一个的输入参与运算,因此无法并行计算,速度很慢,且单向RNN只能获取前向序列关系,需要采用双向RNN才可以获取完整的全局信息.

  • CNN方案

    采用CNN模型,则是通过一个窗口(卷积核)来对整个序列进行遍历, y t = f ( x t − 1 , x t , x t + 1 ) y_t = f(x_{t-1},x_t,x_{t+1}) yt=f(xt1,xt,xt+1)只能获取到局部信息,需要层叠来增大感受野.

本文提出了一种Transformer注意力机制,完全替代了RNN、CNN.

y t = f ( x t , A , B ) y_t = f(x_t,A,B) yt=f(xt,A,B)

将A、B都取为X时,则称为Self-Attention,即通过 x t x_t xt和整个 X X X进行关系运算最后得到 y t y_t yt.

Attention层

Google给出了如下的Attention结构

Attention层.jpg

A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值