注意力机制学习笔记

最新推荐文章于 2023-03-19 15:59:13 发布

1day1hae

最新推荐文章于 2023-03-19 15:59:13 发布

阅读量263

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43442997/article/details/107512872

版权

注意力机制学习笔记

注意力机制
实验

注意力机制最初是一种在编码器-解码器结构中使用到的机制，在多种任务中使用：机器翻译、图像转换等。如今，注意力机制在深度学习模型中无处不在，而不仅仅是在编码器-解码器上下文中使用。

注意力机制

Encoder-Decoder机制

在这里插入图片描述

如上图所示，编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出。由于这种结构一般的应用场景(机器翻译等)，其输入输出都是序列, 因此也被称为序列到序列的模型Seq2Seq。

原始输入首先通过一个神经网络被编码为一个向量，以RNN为例，在每个时间步t，将前向和后向的句子嵌入连接起来，以获得双向RNN的内部表示形式：
$h_t=[\overrightarrow{h_t};\overleftarrow{h_t}]$

注意力机制允许解码器在每一个时间步t处考虑整个编码器输出的隐藏状态序列 $h_1,h_2,⋯,h_{Tx})$ ，从而编码器将更多的信息分散地保存在所有隐藏状态向量中，解码器在使用这些隐藏向量时, 就能决定对哪些向量更关心。

解码器得到的目标序列 $h_1,h_2,⋯,h_{Ty})$ 中的输出 $y_t$ , 都是基于以下的条件分布：
$\tilde{h_t}=tanh(W_c[c_t;h_t])$
$P[y_t|\{y_1, …, y_{t-1}\}, c_t]=softmax(W_s\tilde{h_t})$
其中， $\tilde{h_t}$ 为隐藏状态向量； $c_t$ 是上下文向量，可由全局和局部两种计算方法得到； $W_s$ 和 $W_c$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力机制学习笔记

注意力机制学习笔记注意力机制Encoder-Decoder机制全局注意力局部注意力自注意力机制实验数据预处理模型训练及测试    注意力机制最初是一种在编码器-解码器结构中使用到的机制，在多种任务中使用：机器翻译、图像转换等。如今，注意力机制在深度学习模型中无处不在，而不仅仅是在编码器-解码器上下文中使用。注意力机制Encoder-Decoder机制    如上图所示，编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出。由于这种结构一般的应用场景(机器
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。