摘要
Dnn是强大的模型,在困难的学习任务上取得了出色的表现。尽管每当有很大的标签训练集时,DNN都能很好的工作,但是他们不能用于将序列映射到序列的工作。在本文中,我们提出了一般端到端的方法,对序列标签做出最小假设。我们的方法使用多层LSTM将输入序列映射到固定维度的向量,然后在使用另一个深LSTM来从向量中解码目标序列。
Introduction
(1)DNN介绍,举例。很强大
(2)尽管DNN具有灵活性和功能,但只能应用于其输入和目标可以用固定维度向量进行明确编码的问题。
(3)本文的想法,用一个LSTM读输入序列,一次一个时间步,用来获得大的固定维度向量,然后用另一个LSTM来从输入中提取序列。第二个LSTM实质上是循环神经网络模型,只是输入序列是有条件的。
(4)已经有很多相关的尝试来解决用神经网络进行一般的序列到序列的学习问题。举例。
(5)LSTM反向读取输入句子,因为这样做会在数据中引入许多短期依赖关系,从而使优化问题更容易。
(6)BLEU是一种用于评估从一种自然语言到另一种自然语言的机器翻译的质量的算法。
(7)SMT,统计机器翻译,其翻译是根据统计模型生成的,其参数来源于双语文本语料库的分析。
(8)LSTM的有用属性是它学习将可变长度的输入句子映射到固定向量表示。
模型:
(1)RNN是前馈神经网络序列的自然泛化(generalization)
每当输入输出之间的映射提前知道时