Attention机制的解释

最新推荐文章于 2024-03-06 22:03:20 发布

转载最新推荐文章于 2024-03-06 22:03:20 发布 · 673 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/billdingdj/p/11623486.html

本文深入探讨了Seq2Seq模型及其Attention机制的工作原理，解释了Attention如何使模型能够关注输入序列中相关性高的部分，从而提升翻译等任务的表现。通过与传统Seq2Seq模型的对比，详细阐述了Attention机制的引入如何改变了模型的内部运作。

The Illustrated Attention

Attention

Seq2Seq 是一种由Encoder和Decoder组成的结构，可以将输入转化成一种中间形态并在Decoder输出；

而Attention则是解决方案，经典的是Bahdanau et al., 2014 and Luong et al., 2015.Attention可以使模型关注于输入序列中的需要关注的地方，即相关性高的部分。

以更加抽象而高层次的角度去看Attention机制，在以下两个方面，Attention和Seq2Seq不同：

Encoder传递了更多的数据给Decoder；现在不是将最后一个隐藏状态传给Decoder而是所有的隐藏状态。
Attention的Decoder在产生结果之前多进行了额外的步骤：
1. 查看它接收道德所有Encoder的隐藏状态（向量）
2. 给每一个隐藏状态一个得分
3. 通过Softmax计算每一个状态的权重，并进行乘积运算
可以看出主要区别在于Decoder的部分；

具体在Decoder的运行步骤如下：
1. 得到Encoder的输出，初始化Decoder的隐藏状态
2. RNN处理输入，产生输出和隐藏变量H，其中输出被丢弃
3. Attention Step：
  1. 使用Encoder的隐藏状态和刚产生的隐藏变量H计算Context Vector
  2. 将C和H连接
  3. 通过一个前馈网络传输
  4. 输出的结果就是这个时间步骤的输出单词
  5. Repeat

该模型不仅仅是将输出中的第一个单词与输入中的第一个单词对齐，而是在训练阶段学习到如何将两种语言的单词对应（翻译过程）。

得到以上结果。

转载于:https://www.cnblogs.com/billdingdj/p/11623486.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。