RNN/LSTM
RNN TO LSTM: https://www.cnblogs.com/jiangxinyang/p/9362922.html
1.U,W,V这三个矩阵就是我们的模型的线性关系参数,它在整个RNN网络中是共享的。也正是因为是共享的,它体现了RNN的模型的“循环反馈”的思想。
RNN Encoder-Decoder and GRU
链接地址:https://zhuanlan.zhihu.com/p/42722623
SEQ2SEQ
从seq2seq 到 attention 简介:https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/
attention 带公式的图解:https://zhuanlan.zhihu.com/p/40920384
1.在机器翻译中,源语言和目标语言的句子序列都是不等长的,而原始的 n VS n 结构都是要求序列等长的。为此,我们有了 n VS m 结构,这种结构又被称为 Encoder-Decoder模型 。
2.Decoder根据中间状态向量 C 和已经生成的历史信息 y1,y2…yi-1 去生成 t 时刻的单词 yi .
3.例如翻译:Cat chase mouse,Encoder-Decoder 模型逐字生成:“猫”、“捉”、“老鼠”。在翻译 mouse 单词时,每一个英语单词对“老鼠”的贡献都是相同的。如果引入了Attention 模型,那么 mouse 对于它的影响应该是最大的。
4.Attention 模型的特点是 Decoder 不再将整个输入序列编码为固定长度的中间语义向量 C ,而是根据当前生成的新单词计算新的 $C_{i}$ ,使得每个时刻输入不同的 C ,这样就解决了单词信息丢失的问题。
5.三种aij权重系数计算中score的计算方法,第一种设encoder隐层维度与decoder相等,第二种设encoder隐层维度与decoder隐层维度不等。
6.Bahdanau等人提出的用Attention,其核心内容是为输入向量的每个单词学习一个权重。
Transformer
纯attention的模型:https://zhuanlan.zhihu.com/p/48508221