注意力机制

最新推荐文章于 2024-06-03 09:45:00 发布

Linky1990

最新推荐文章于 2024-06-03 09:45:00 发布

阅读量749

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangjiu2009/article/details/103566277

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

注意力机制：编码器和解码器

编码器

编码器如下所示，输入先经过 嵌入层 转化为输入向量，然后在每个时间步产生一个隐藏状态，最后将每个时间步生成的向量，组合成一个矩阵 $H$ ，传入解码器
在这里插入图片描述

解码器

对于每个时间步，需要计算出 注意力语境向量（Context Vector），步骤如下：

第一步，计算 Score，输入编码器中得到的隐藏状态矩阵 $H$ （假设维度为 m * 3），输出对应每个隐藏状态的得分向量，则得分向量的维度为 1 * 3

第二步，将得到的 Score 经过 softmax 转化，得到新的向量，维度为 1 * 3

第三步，将第二步中得到的向量(1 * 3)与转置后的隐藏矩阵 $H^T$ 执行点积运算，最终得到注意力语境向量，维度为 1 * 3 $\cdot$ 3 * m = 1 * m，其中 m 表示每个隐藏状态的向量长度

上面过程如下图所示：
m=3

Score 函数

在解码器中，计算注意力语境向量时，需要计算编码器每个隐藏状态的评分，即 Score函数。有两种计算 Score 的算法，分别是加法注意力和乘法注意力，公式如下：

加法注意力 Score 函数
$e_{ij}=v_a^Ttanh(W_as_{i-1}+U_ah_j)$
其中 $h_j$ 表示编码器的第 $j$ 个隐藏状态向量， $s_{i-1}$ 表示解码器的上一个时间步的隐藏状态。 $v_a$ 、 $W_a$ 和 $U_a$ 是需要训练的权重矩阵。

乘法注意力 Score 函数
在这里插入图片描述
有三个函数可供选择，第一个称为点乘评分函数，是编码器隐藏状态和解码器 $t$ 时间步的隐藏状态的点积。第二个是通用评分函数，用于平衡编码器隐藏状态和解码器隐藏状态之间维度不对应的问题。第三个与加法注意力很相似，将两个隐藏状态相加后，乘以权重矩阵，然后双曲正切，最后再乘以另一个权重矩阵。

得到隐藏状态的评分后

应用 softmax 函数进行软化
在这里插入图片描述
最后计算语境向量

这一步相当于将软化后的向量与隐藏状态矩阵 $H$ 的转置 $H^T$ 执行点击运算

最后

$\hat{h_t}=tanh(W_c[c_t;h_t])$
将语境向量和解码器在 $t$ 时间步的隐藏状态拼接，作为输入传入一个拥有一个隐藏层的神经网络，最后经过双曲正切函数后，得到该时间步的输出。 $W_c$ 表示神经网络隐藏层的权重矩阵。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
注意力机制

注意力机制：编码器和解码器编码器编码器如下所示，输入先经过嵌入层转化为输入向量，然后在每个时间步产生一个隐藏状态，最后将每个时间步生成的向量，组合成一个矩阵 H，传入解码器解码器对于每个时间步，需要计算出注意力语境向量（Context Vector），步骤如下：第一步，计算 Score，输入编码器中得到的隐藏状态矩阵 HHH（假设维度为 m * 3），输出对应每个隐藏...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。