Attention model

最新推荐文章于 2024-08-09 08:26:54 发布

迷川浩浩_ZJU

最新推荐文章于 2024-08-09 08:26:54 发布

阅读量1.5w

点赞数 13

分类专栏：视觉语义文章标签：计算机视觉自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21190081/article/details/53083516

版权

注意力模型(AM)在计算机视觉和自然语言处理中起关键作用，改善了Encoder-Decoder模型的局限性。通过赋予不同输入不同的注意力权重，AM能更精确地聚焦于关键信息，提高翻译和其他任务的性能。

摘要由CSDN通过智能技术生成

引言

Attention model(AM)最先在计算机视觉中被应用于图片识别的问题，之后在自然语言处理(NLP)和计算机视觉(CV)中经常结合递归神经网络结构RNN、GRU、LSTM等深度学习算法，被称之为Recurrent Attention Model(RAM)，其核心就是一个Encoder-Decoder的过程。

传统的Encoder-Decoder模型例如RNN在做文本翻译是把一个输入语句( $x_1,x_2,...,x_i$ )全部输入之后得到一个语义C，然后根据这个C得到翻译的文本( $y_1,y_2,...,y_j$ )，文本中每一个单词都是利用了同一个语义C，也就是说输入文本的每一个单词 $x_i$ 都对输出文本的单词 $y_j$ 的贡献是一样的，显然这一点是不合理的。例如 Cat eats food 翻译成“猫吃食物”时cat 显然对于猫这个词有更大的贡献。所以attention model的作用就在于能够根据序列的变化一直更新最关心的部分。

Encoder-Decoder模型

传统RNN的Encoder-Decoder模型是没有注意力权重的，下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。对于句子对

X = < x 1, x 2, . . . x i >

$X = <x_1,x_2,...x_i>$

Y = < y 1, y 2, . . . y j >

$Y = <y_1,y_2,...y_j>$
Encoder过程中，对输入的X进行语义编码得到中间语义 C的公式为，其中F为非线性编码函数，在RNN中为其网络结构及其参数：

C = F (x 1, x 2, . . ., x i)

$C = F(x_1,x_2,...,x_i)$
Decoder过程中，利用得到的中间语义 C，和之前输出的单词

最低0.47元/天解锁文章

迷川浩浩_ZJU

关注

13
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。