https://www.bilibili.com/video/BV17A411e7qL?p=3
先统计词频再排序,替换词频为index,这样可以截取无意义(低频词)
对lstm层的dropout无用,因为是embedding层参数很多
decoder必须是单向lstm
self-attention: Long Short-Term Memory-Networks for Machine Reading
attention : Neural Machine Translation by Jointly Learning to Align and Translate
如何去掉RNN
感觉和rnn做翻译的步骤一样,就是生成特征的方式不一样,输入输出 都一样,c就是rnn中的状态向量h