Attention机制

最新推荐文章于 2023-04-05 12:20:47 发布

ACTerminate

最新推荐文章于 2023-04-05 12:20:47 发布

阅读量643

点赞数

分类专栏： Attention 文章标签：机器学习 Attention RNN

本文链接：https://blog.csdn.net/ACTerminate/article/details/89344375

版权

Attention机制源于机器视觉，应用于机器翻译任务，旨在解决RNN处理长句子时的效果下降问题。传统的RNN模型中，信息受限于固定维度的上下文向量C，而Attention允许模型根据需要动态聚焦不同位置的隐藏单元，通过分配不同权重来提高翻译准确性。常见的Attention函数包括加权平均、点积、加法、concat和perceptron等。

摘要由CSDN通过智能技术生成

在机器翻译领域中，Attention机制是从机器视觉领域首先提出的。其直觉是当人们观察事物时，人们总是将注意力放在关注的事物上，而不是看的所有画面。
为了更好地解释Attention机制的作用，我们引入机器翻译任务中的问题。在机器翻译任务中，人们发现，RNN对短的句子总是有很好的翻译效果，而长句子的翻译效果则不尽如人意，这是因为即使是LSTM也只能记住大约30个词。我们可以从这样一个方面考虑，如下图，是一种机器翻译模型，encoder编码所有的输入之后输出一个C，decode部分每次将前一个隐藏单元 $h_{t-1}$ 以及C作为输出进行翻译，因此翻译时一直依靠C单元，由于C单元维度有限，因此他能保留的信息可能会不足以翻译某些位置的词，因此会产生错误。
在这里插入图片描述
Attention机制就可以解决这个问题。我们将所有隐藏单元都做作为输入，但是分配不同的权重，如下图。这时，和当前翻译位置有关的隐藏单元，将会有更大的权重用于翻译。这就是Attention机制，其让网络有目的的去找到需要用于翻译的部分，这样就能更好的利用之前学习到的内容。

在这里插入图片描述
常用的五种attention函数

最低0.47元/天解锁文章

ACTerminate

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Attention机制

在机器翻译领域中，Attention机制是从机器视觉领域首先提出的。其直觉是当人们观察事物时，人们总是将注意力放在关注的事物上，而不是看的所有画面。为了更好地解释Attention机制的作用，我们引入机器翻译任务中的问题。在机器翻译任务中，人们发现，RNN对短的句子总是有很好的翻译效果，而长句子的翻译效果则不尽如人意，这是因为即使是LSTM也只能记住大约30个词。我们可以从这样一个方面考虑，如下...
复制链接

扫一扫

专栏目录