注意力机制——Attention 原理和使用场景

最新推荐文章于 2024-08-15 20:42:08 发布

Bernard_Yang

最新推荐文章于 2024-08-15 20:42:08 发布

阅读量1k

点赞数

分类专栏： NLP 文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38224810/article/details/115363794

版权

NLP 专栏收录该内容

21 篇文章 5 订阅

订阅专栏

背景

seq2seq learning in machine translation：
both input and output are sequences with different lengths
一般的机器翻译模型可以用由encoder 和 decoder组成的RNN，encoder将原语言的词编码成向量，decoder把encoder编好的context向量解码成目标语言。随着decoder长度增加，信息衰减的严重程度也会增加。
在decoding过程中虽然可以把context作为decoder的每个hidden state，以此来避免信息衰减，但这样会导致翻译每个字时考虑的信息是一样的，因为直觉上来说，在翻译每个字时我们所关注的地方应该是不一样的。attention机制就是为了解决这个问题而诞生的

encoder-decoder结构

在这里插入图片描述

Attention机制

Attention就是一个软查询过程。我们假设decoder中在第t个step下，hidden state是 $h_1$ 让他与每一个encoder的hidden state $\tilde h$ 做inner product计算余弦相似度，即attention权重 $\alpha$ 。得到attention权重，剩下的事情就是加权累加 $\bar{h}_{t} = \sum_{i}^{T} \alpha_i\tilde h_i$ 。

神经机器翻译过程图解

Encoder

encoder是一个RNN，输入为原语言待翻译的序列，每个RNN time step 根据上一个timestep的hidden state 和当前输入的input 计算出当前对应的output 和 hidden state
在这里插入图片描述

基于attention的seq2seq模型在encoder传递给decoder的数据上与传统的seq2seq模型只传递最后一个hidden state相比，会把encoder每个time step产生的hidden state都传递给decoder供后续attention运算使用。
在这里插入图片描述

Decoder

下面来看解码过程，decoder的输入为目标序列的word embedding，但是不同点在于第一个time step会输入一个特殊符号，decoder的RNN 根据初始化的hidden state和这个特殊符号input计算出hidden state，然后再用decoder的hidden state和encoder的hidden state做attention运算，以此决定每一步应该最大概率输出哪个字。

之后的每一个time step decoder会把上一步输出的目标语言的word embedding作为输入。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。