【NLP】Attention原理和源码解析

最新推荐文章于 2024-08-15 14:15:00 发布

weixin_34405332

最新推荐文章于 2024-08-15 14:15:00 发布

阅读量243

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5be8fb95518825170924613c

版权

对attention一直停留在浅层的理解，看了几篇介绍思想及原理的文章，也没实践过，今天立个Flag，一天深入原理和源码！如果你也是处于attention model level one的状态，那不妨好好看一下啦。

内容：

核心思想
原理解析（图解+公式）
模型分类
优缺点
TF源码解析

P.S. 拒绝长篇大论，适合有基础的同学快速深入attention，不明白的地方请留言咨询~

1. 核心思想

Attention的思想理解起来比较容易，就是在decoding阶段对input中的信息赋予不同权重。在nlp中就是针对sequence的每个time step input，在cv中就是针对每个pixel。

2. 原理解析

针对Seq2seq翻译来说，rnn-based model差不多是图1的样子：

图1 传统rnn-based model

而比较基础的加入attention与rnn结合的model是下面的样子（也叫soft attention）：

其中是对应的权重，算出所有权重后会进行softmax和加权，得到。

可以看到Encoding和decoding阶段仍然是rnn，但是decoding阶使用attention的输出结果作为rnn的输入。

那么重点来了，权重是怎么来的呢？常见有三种方法：

思想就是根据当前解码“状态”判断输入序列的权重分布。

如果把attention剥离出来去看的话，其实是以下的机制：

输入是query(Q), key(K), value(V)，输出是attention value。如果与之前的模型对应起来的话，query就是，key就是，value也是。模型通过Q和K的匹配计算出权重，再结合V得到输出：

再深入理解下去，这种机制其实做的是寻址（addressing），也就是模仿中央处理器与存储交互的方式将存储的内容读出来，可以看一下李宏毅老师的课程。

3. 模型分类

3.1 Soft/Hard Attention

soft attention：传统attention，可被嵌入到模型中去进行训练并传播梯度

hard attention：不计算所有输出，依据概率对encoder的输出采样，在反向传播时需采用蒙特卡洛进行梯度估计

3.2 Global/Local Attention

global attention：传统attention，对所有encoder输出进行计算

local attention：介于soft和hard之间，会预测一个位置并选取一个窗口进行计算

3.3 Self Attention

传统attention是计算Q和K之间的依赖关系，而self attention则分别计算Q和K自身的依赖关系。具体的详解会在下篇文章给出~

4. 优缺点

优点：

在输出序列与输入序列“顺序”不同的情况下表现较好，如翻译、阅读理解
相比RNN可以编码更长的序列信息

缺点：

对序列顺序不敏感
通常和RNN结合使用，不能并行化

5. TF源码解析

发现已经有人解析得很明白了，即使TF代码有更新，原理应该还是差不多的，直接放上来吧：

顾秀森：Tensorflow源码解读（一）：AttentionSeq2Seq模型zhuanlan.zhihu.com

【参考资料】：

weixin_34405332

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。