seq2seq模型理解

最新推荐文章于 2024-06-27 00:19:02 发布

银云风

最新推荐文章于 2024-06-27 00:19:02 发布

阅读量773

点赞数

分类专栏： deep-learning 文章标签： seq2seq encoder decoder beamsearch attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chuanid/article/details/77743027

版权

本文深入探讨seq2seq模型，包括Encoder和Decoder的原理，训练过程中的多分类交叉熵损失，预测阶段的Beam Search策略，以及Attention机制。通过实例解释了如何将one-hot向量转换为词向量，以及如何在Decoder中引入word embedding。同时，还介绍了深度RNN结构的相关知识。

摘要由CSDN通过智能技术生成

声明：本文在paddle book NMT一节的基础上进行了补充，解释decoder cost、attention模型中的对齐公式、decoder引入word embedding，以及深层RNN的一种方式。

一、模型结构图

这里写图片描述

二、Encoder

编码阶段分为三步：

one-hot vector表示：将源语言句子的每个词表示成一个列向量，这个向量的维度与词汇表大小相同，并且只有一个维度上有值1其余全是0。
映射到低维语义空间的词向量：one-hot vector表示存在两个问题，
1) 生成的向量维度往往很大，容易造成维数灾难；
2) 难以刻画词与词之间的语义关系。
用RNN编码源语言词序列，隐向量更新公式如下：
$h i = Φ θ (h i - 1, s i)$ $h_i = Φ_θ(h_{i-1}, s_i)$
整句话的向量表示可以采用h在最后一个时间步T的状态编码，或使用时间维上的池化（pooling）结果。

三、Decoder

A. 训练过程多分类交叉熵

每一个时刻，根据源语言句子的编码信息c、真实目标语言序列的第i个词ui和i时刻RNN的隐层状态zi，计算出下一个隐层状态zi+1
$z i + 1 = Φ θ (c, u i, z i)$ $z_{i+1} = Φ_θ (c, u_i, z_i)$
实际上，真正计算 z

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。