Attention机制

Attention机制源于机器视觉,应用于机器翻译任务,旨在解决RNN处理长句子时的效果下降问题。传统的RNN模型中,信息受限于固定维度的上下文向量C,而Attention允许模型根据需要动态聚焦不同位置的隐藏单元,通过分配不同权重来提高翻译准确性。常见的Attention函数包括加权平均、点积、加法、concat和perceptron等。
摘要由CSDN通过智能技术生成

在机器翻译领域中,Attention机制是从机器视觉领域首先提出的。其直觉是当人们观察事物时,人们总是将注意力放在关注的事物上,而不是看的所有画面。
为了更好地解释Attention机制的作用,我们引入机器翻译任务中的问题。在机器翻译任务中,人们发现,RNN对短的句子总是有很好的翻译效果,而长句子的翻译效果则不尽如人意,这是因为即使是LSTM也只能记住大约30个词。我们可以从这样一个方面考虑,如下图,是一种机器翻译模型,encoder编码所有的输入之后输出一个C,decode部分每次将前一个隐藏单元 h t − 1 h_{t-1} ht1以及C作为输出进行翻译,因此翻译时一直依靠C单元,由于C单元维度有限,因此他能保留的信息可能会不足以翻译某些位置的词,因此会产生错误。
在这里插入图片描述
Attention机制就可以解决这个问题。我们将所有隐藏单元都做作为输入,但是分配不同的权重,如下图。这时,和当前翻译位置有关的隐藏单元,将会有更大的权重用于翻译。这就是Attention机制,其让网络有目的的去找到需要用于翻译的部分,这样就能更好的利用之前学习到的内容。

在这里插入图片描述
常用的五种attention函数
f ( m q , m k ) = { m q T m k d o t m q T W a m k g e n e r a l W a [ m q ;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值