Attention机制的解释

本文深入探讨了Seq2Seq模型及其Attention机制的工作原理,解释了Attention如何使模型能够关注输入序列中相关性高的部分,从而提升翻译等任务的表现。通过与传统Seq2Seq模型的对比,详细阐述了Attention机制的引入如何改变了模型的内部运作。

The Illustrated Attention

Attention

Seq2Seq 是一种由Encoder和Decoder组成的结构,可以将输入转化成一种中间形态并在Decoder输出;

而Attention则是解决方案,经典的是Bahdanau et al., 2014 and Luong et al., 2015.Attention可以使模型关注于输入序列中的需要关注的地方,即相关性高的部分。

以更加抽象而高层次的角度去看Attention机制,在以下两个方面,Attention和Seq2Seq不同:

  1. Encoder传递了更多的数据给Decoder;现在不是将最后一个隐藏状态传给Decoder而是所有的隐藏状态。

  2. Attention的Decoder在产生结果之前多进行了额外的步骤:

    1. 查看它接收道德所有Encoder的隐藏状态(向量)
    2. 给每一个隐藏状态一个得分
    3. 通过Softmax计算每一个状态的权重,并进行乘积运算

    可以看出主要区别在于Decoder的部分;

    具体在Decoder的运行步骤如下:

    1. 得到Encoder的输出,初始化Decoder的隐藏状态
    2. RNN处理输入,产生输出和隐藏变量H,其中输出被丢弃
    3. Attention Step:
      1. 使用Encoder的隐藏状态和刚产生的隐藏变量H计算Context Vector
      2. 将C和H连接
      3. 通过一个前馈网络传输
      4. 输出的结果就是这个时间步骤的输出单词
      5. Repeat

该模型不仅仅是将输出中的第一个单词与输入中的第一个单词对齐,而是在训练阶段学习到如何将两种语言的单词对应(翻译过程)。img

得到以上结果。

原文阅读

转载于:https://www.cnblogs.com/billdingdj/p/11623486.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值