seq2seq架构略解

最新推荐文章于 2024-07-13 16:59:55 发布

cqbzcsq

最新推荐文章于 2024-07-13 16:59:55 发布

阅读量465

点赞数 5

分类专栏：自然语言处理机器学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/C20180602_csq/article/details/138230580

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

自然语言处理

2 篇文章 0 订阅

订阅专栏

用于序列翻译任务（下图来自d2l）

训练时输入输出格式：

若数据集为{ <(a1,a2,a3,a4,a5),(b1,b2,b3,b4,b5)> }（AB语言对应的句子组）

输入

A语言的单词序列+结束符（a1,a2,a3,a4,a5,<eos>）

开始符+B语言的单词序列（<bos>,b1,b2,b3,b4,b5）

输出

B语言的单词序列（b1,b2,b3,b4,b5,<eos>）

预测时输入格式：

A语言的单词序列+结束符（a1,a2,a3,a4,a5,<eos>）

开始符+空（<bos>，，，，，）

编码器、解码器两部分使用的暂时还是RNN

编码器RNN

隐藏层使用普通初始化

输入：

A语言序列单词的独热向量+<eos>的独热向量

输出：

特征向量序列（但后续并没有使用）+隐藏层参数H1

解码器RNN

使用编码器计算结束之后的隐藏层H1，初始化隐藏层

输入：

训练时，输入<bos>+B语言序列单词的独热向量 + H1（直接拼接）

预测时，输入<bos>，然后将当前RNN预测结果作为下一次预测的输入。

输出：

B语言单词序列的独热向量+<eos>的独热向量

训练时seq2seq的计算图：

预测时seq2seq的计算图：

代码d2l官网十分详细了，就不再赘述了。

另外一个小插曲

实际上d2l官方给出的代码实现的解码器架构有一些小问题

在预测时，在第一步预测完毕之后，使用的dec_state会继承解码器RNN的隐藏层状态，而不是保持编码器所获取的隐藏层H1的信息

在评论区里面已经有大佬给出了正确的代码实现，可以围观。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
seq2seq架构略解

在预测时，在第一步预测完毕之后，使用的dec_state会继承解码器RNN的隐藏层状态，而不是保持编码器所获取的隐藏层H1的信息。若数据集为{ }（AB语言对应的句子组）A语言的单词序列+结束符（a1,a2,a3,a4,a5,）开始符+B语言的单词序列（,b1,b2,b3,b4,b5）A语言的单词序列+结束符（a1,a2,a3,a4,a5,）B语言的单词序列（b1,b2,b3,b4,b5,）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。