深度学习笔记——Attention Model（注意力模型）学习总结

最新推荐文章于 2025-09-15 09:38:58 发布

原创

最新推荐文章于 2025-09-15 09:38:58 发布 · 10w+ 阅读

CC 4.0 BY-SA版权

深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

AM刚开始也确实是应用在图像领域里的，AM在图像处理领域取得了非常好的效果！于是，就有人开始研究怎么将AM模型引入到NLP领域。最有名的当属“Neural machine translation by jointly learning to align and translate”这篇论文了，这篇论文最早提出了Soft Attention Model，并将其应用到了机器翻译领域。后续NLP领域使用AM模型的文章一般都会引用这篇文章（目前引用量已经上千了！！！）

如下图所示，机器翻译主要使用的是Encoder-Decoder模型，在Encoder-Decoder模型的基础上引入了AM，取得了不错的效果：

Soft Attention Model：

这里其实是上面图的拆解，我们前面说过，“Neural machine translation by jointly learning to align and translate”这篇论文提出了soft Attention Model，并将其应用到了机器翻译上面。其实，所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。

即上图中的ci是对Encoder中每一个单词都要计算一个注意力概率分布，然后加权得到的。如下图所示：

其实有Soft AM，对应也有一个Hard AM。既然Soft是给每个单词都赋予一个单词对齐概率，那么如果不这样做，直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为0，这就是Hard Attention Model的思想。Hard AM在图像里证明有用，但是在文本里面用处不大，因为这种单词一一对齐明显要求太高，如果对不齐对后续处理负面影响很大。

但是，斯坦福大学的一篇paper“Effective Approaches to Attention-based Neural Machine Translation”提出了一个混合Soft AM 和Hard AM的模型，论文中，他们提出了两种模型：Global Attention Model和Local Attention Model，Global Attention Model其实就是Soft Attention Model，Local Attention Model本质上是Soft AM和 Hard AM的一个混合。一般首先预估一个对齐位置Pt，然后在Pt左右大小为D的窗口范围来取类似于Soft AM的概率分布。

Global Attention Model和Local Attention Model

最低0.47元/天解锁文章

5 条评论

一匹耿直的马 2021.10.21
参考文献呢？？

zzzZ_0000 2020.05.09
有个疑问，为什么在a = K.exp(uit)中，没有像论文(或者上面的式子)中加入权重Va呢，a = K.exp(uit*Va)。很急，希望您能解答。

大大大勋 2020.01.18
想请问您一下，视觉注意力感知实验和计算有什么经典的开源模型吗？可以在哪里下载或者获得？感谢万分！！！

小小川_ 2019.05.05
视觉注意力和 nlp注意力，在文章写的简明扼要。这点挺好的。

jmirv 2018.08.11
有2/3的原创翻译，点赞
- 糖小豆子回复jmirv 2018.10.02
  [reply]miaogegegege[/reply] 我也不搞不懂这个人，简直键盘侠。。。
- jmirv回复wereineky 2018.09.29
  [reply]wereineky[/reply] 高端黑，不懂？
- wereineky回复jmirv 2018.09.26
  [reply]miaogegegege[/reply] 2/3都是抄别人博客还不给出链接，还声明原创？还点赞？你怕不是作者小号吧？还要点脸不？