目录
0.前言
标题:Sequence to Sequence Learning with Neural Networks
使用神经网络来做序列到序列的学习
作者:Ilys Sutskever, Oriol vinyals, Quoc V. Le
单位:Google
出处:NIPS2014
* 总结
- 动机
- 神经网络无法处理序列到序列的问题,特别是变长的序列。
- 使用多层LSTM可以学习更多的信息。
- 创新点+主要工作
- 提出了一种新的神经机器翻译模型-Deep NMT模型。
- 提出了一些tricks——多层LSTM和倒序输入等。
- Encoder 和Decoder使用不同的LSTM
- 在WMT14英语到法语翻译上得到非常好的结果。
- 关键点
- 验证了Seq2Seq模型对于序列到序列任务的有效性
- 从实验的角度发现了提高效果的tricks
- 提出Deep NMT模型
- 启发点
-
Seq2Seq模型就是使用一个LSTM提取输入序列的特征,每个时间步输入一个词,从而生成固定维度的句子向量表示,然后Deocder使用另外一个LSTM来从这个向量中生成输入序列。
The idea is to use one LSTM to read the input sequence, one timestep at a time, to obtain large fixed dimensional vector representation, and then to use another LSTM to extract the output sequence
from that vector(Introduction P3) -
这里的Encoder和Decoder的思想非常重要,这里是用LSTM来作为Encoder和Decoder,后面还出现了CNN,RNN作为Encoder和Decoder的文章。
-
我们的实验也支持这个结论,我们的模型生成的句子表示能够明确词序信息,并且能够识别出来同一 种含义的主动和被动语态。
A qualitative evaluation supports this claim, showing that our model is aware of word order and is fairly invariant to the active and passive voice.(Introduction P8)
-
1.论文导读
1.1神经机器翻译(NMT)
机器翻译:使用机器自动将某种语言的一句话翻译成另外一种语言。
意义:可以解决人类之间因为不同语言交流不畅的问题。