Attention模型超超超超超超级攻略

最新推荐文章于 2024-07-16 14:11:41 发布

Geek Fly

最新推荐文章于 2024-07-16 14:11:41 发布

阅读量504

点赞数

分类专栏：代码文章标签： attention nlp machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Real_Brilliant/article/details/85715956

版权

代码专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1. Seq2Seq的编码向量是怎么计算的

对于encoder隐层输出 ${h_1,h_2,...,h_T\}$ ，有2种编码形式：
1. 仅取最后一个时刻的隐层状态 $h_t$ 作为整个序列的编码表示
2. 将所有时刻的隐层状态 ${h_1,h_2,...,h_T\}$ 进行特征融合，比如将求和平均 $\Sigma_{j=1}^Th_j/T$ 的结果作为整个序列的编码表示
一般来说方法2结果较好

2. Seq2Seq的编码向量是怎么使用的

将encoder输出的编码向量，作为decoder每个时刻的输入特征。也即每个时刻都输入一次编码向量
上图也就是最基本的encoder-decoder模型
Attention所改进的地方就在于，原先是将 $\Sigma_{j=1}^Th_j/T$ 作为decoder每个时刻的输入，现在是对于每个时刻 $t$ ，都有一个不同的权重向量 $a_{t1},a_{t2},...,a_{tT})$ ，“告知”decoder，此时输入的编码序列对于所需要的输出而言，哪些特征比较重要，哪些不重要，也即 $\Sigma_{j=1}^T\alpha_{tj}h_j$ 。
也可以理解为，原先的权重向量就是 $(1 / T, 1 / T, . . ., 1 / T)$ ，也即对所有特征的注意力均相同（其实也就是都不注意）

3. Attention参数是怎么计算的

Attention 层算法流程
计算得到encoder隐层状态序列 ${h_1,h_2,...,h_T\}$
对于decoder当前隐层输出 $s_{t-1}$ ，计算 $s_{t-1}$ 与 $h_j$ 的关联性 $e_{tj}=sim(s_{t-1},h_j)$
通过计算 $s_{t-1}$ 与 ${h_1,h_2,...,h_T\}$ 的关联性，可以得到关联向量 $e_t=(e_{t1},e_{t2},...,e_{tT})$
对 $e_t$ 进行softmax，使其归一化并得到attention的分布 $a_t=\{a_{t1},a_{t2},...,a_{tT}\\|a_{tj}=e_{tj}/\Sigma_{k=1}^Te_{tk}\}$
利用 $a_t$ 和编码向量计算decoder当前时刻输入 $c_t=\Sigma_{j=1}^T\alpha_{tj}h_j$
将 $c_t$ 送入decoder后，得到下一时刻隐层输出 $s_t=f(s_{t-1},y_{t-1},c_t)$ ，以及decoder输出

关于 $e_{tj}=sim(s_{t-1},h_j)$ 的相似度计算方法，有以下几种：
1. 点乘： $sim(s_{t-1},h_j)=s_{t-1}^Th_j$
2. 加权点乘， $sim(s_{t-1},h_j)=s_{t-1}^TWh_j$
3. 加和， $sim(s_{t-1},h_j)=v_Ttanh(W_1s_{t-1}^T+W_2h_j)$

参考文献

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention模型超超超超超超级攻略

前言虽然国内外已经有很多Attention相关的博文了，但是哪怕点击量上万，也鲜有完全讲明白Attention各方面内容的文章，反而大都千篇一律地局限在比较浅显的原理上Seq2Seq的编码向量是怎么计算的？Seq2Seq的编码向量是怎么使用的？Attention就是对对联，汤姆对Tom，杰瑞对Jerry？Attention参数是怎么计算的？Attention是怎么实现的？很多...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。