seq2seq相关资料加重点总结

最新推荐文章于 2020-03-12 14:36:06 发布

cf_wu95

最新推荐文章于 2020-03-12 14:36:06 发布

阅读量199

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

RNN/LSTM

RNN TO LSTM: https://www.cnblogs.com/jiangxinyang/p/9362922.html

1.U,W,V这三个矩阵就是我们的模型的线性关系参数，它在整个RNN网络中是共享的。也正是因为是共享的，它体现了RNN的模型的“循环反馈”的思想。

RNN Encoder-Decoder and GRU

链接地址：https://zhuanlan.zhihu.com/p/42722623

SEQ2SEQ

从seq2seq 到 attention 简介：https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/

attention 带公式的图解:https://zhuanlan.zhihu.com/p/40920384

1.在机器翻译中，源语言和目标语言的句子序列都是不等长的，而原始的 n VS n 结构都是要求序列等长的。为此，我们有了 n VS m 结构，这种结构又被称为 Encoder-Decoder模型 。

2.Decoder根据中间状态向量 C 和已经生成的历史信息 y1，y2…yi-1 去生成 t 时刻的单词 yi .

3.例如翻译：Cat chase mouse，Encoder-Decoder 模型逐字生成：“猫”、“捉”、“老鼠”。在翻译 mouse 单词时，每一个英语单词对“老鼠”的贡献都是相同的。如果引入了Ａttention 模型，那么 mouse 对于它的影响应该是最大的。

4.Ａttention 模型的特点是 Decoder 不再将整个输入序列编码为固定长度的中间语义向量Ｃ，而是根据当前生成的新单词计算新的 $C_{i}$ ，使得每个时刻输入不同的Ｃ，这样就解决了单词信息丢失的问题。

5.三种aij权重系数计算中score的计算方法，第一种设encoder隐层维度与decoder相等，第二种设encoder隐层维度与decoder隐层维度不等。

6.Bahdanau等人提出的用Attention，其核心内容是为输入向量的每个单词学习一个权重。

Transformer

纯attention的模型：https://zhuanlan.zhihu.com/p/48508221

英文原版：http://jalammar.github.io/illustrated-transformer/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
seq2seq相关资料加重点总结

RNN/LSTMRNNTO LSTM:https://www.cnblogs.com/jiangxinyang/p/9362922.html1.U,W,V这三个矩阵就是我们的模型的线性关系参数，它在整个RNN网络中是共享的。也正是因为是共享的，它体现了RNN的模型的“循环反馈”的思想。RNN Encoder-Decoder and GRU链接地址：https://zhuanl...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。