带Attention机制的Seq2Seq框架梳理

最新推荐文章于 2024-07-28 11:52:14 发布

thriving_fcl

最新推荐文章于 2024-07-28 11:52:14 发布

阅读量1.2w

点赞数 9

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thriving_fcl/article/details/74853556

版权

本文详细梳理了带有Attention机制的Seq2Seq框架，包括Bi-RNN Encoder和Attention-Decoder的流程。在Encoder部分，使用双向GRU获取每个时刻的hidden_state。Decoder部分，通过Attention机制，结合Encoder输出和Decoder的prev_hidden_state生成能量，进一步计算概率并合成context向量。最终，使用全连接层将hidden_state映射为词汇表大小的向量，以生成目标词。

摘要由CSDN通过智能技术生成

借着与同事组内分享的机会，根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下，公式梳理了一遍。

Bi-RNN Encoder

Bi-RNN Encoder

Encoder的流程如上图所示，最终的输出结果是每个时刻的hidden_state $h_1, h_2, h_3, ..., h_T$ 。

其中的GRU使用的双向的，正向部分的公式如下

h ⃗ 0 = 0

$\vec h_0 = 0$

z ⃗ i = σ (W ⃗ z E ⃗ x i + U ⃗ z h ⃗ i - 1) (1)

$\vec z_i = \sigma ( \vec W_z \vec E x_i + \vec U_z \vec h_{i-1} ) \tag 1$

r ⃗ i = σ (W ⃗ r E ⃗ x i + U ⃗ r h ⃗ i - 1) (2)

$\vec r_i = \sigma ( \vec W_r \vec E x_i + \vec U_r \vec h_{i-1} ) \tag 2$

h ⃗ i^= tanh (W ⃗ E ⃗ x i + U ⃗ [r ⃗ i *

最低0.47元/天解锁文章

关注

9
点赞
踩
41

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

thriving_fcl CSDN认证博客专家 CSDN认证企业博客

码龄9年

26: 原创

73万+: 周排名

78万+: 总排名

38万+: 访问

: 等级

2547: 积分

168: 粉丝

168: 获赞

203: 评论

363: 收藏

私信

关注

热门文章

分类专栏

最新评论

用于文本相似的Siamese Network
夏日流萤: 为什么L-低于m就设为0，而L+低于m不用设为0呢？
TensorFlow 模型保存/载入的两种方法
信号处理学渣: 谢谢博主分享，想问下，第二种方法好像缺很多代码？那些尺寸都需要给一些初值吧？其次，没有训练数据貌似，最后，train_op也没定义吧？想问下有人给具体数据、给完整的代码么？
Tensorflow实现卷积神经网络，用于人脸关键点识别
qq_44940657: 你好，你找到了吗？能不能也给我
Spark Partition
荒-于嬉: rdd计算的最小单元,RDD具备计算能力吗?我百度的好多说他只是一个数据集,我理解的他在spark中的位置更类似于一个数据源,所有的executor都是从RDD获取数据的.
FastText 文本分类使用心得
yifanrensheng: 那是多标签

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。