0. 说明
序列到序列映射 数据学习建模, 使用深度神经网络
https://ai.deepshare.net/detail/p_5d54e025bab7d_EUVqzfFX/6
30 篇精度论文中的一篇, 好好理解下, 为甚么 LSTM 的结构, 能够建模语言/语音模型
1. Abstract
深度神经网络(DNN)是功能强大的模型,已在困难的学习任务上取得了出色的表现。尽管DNN在大型标签训练集可用时都能很好地工作,但是它们不能用于将序列映射到序列。在本文中,我们提出了一种通用的端到端序列学习方法,该方法对序列结构进行了最小限度的假设 (a general end-to-end approach to sequence learning that makes minimal assumptions on the sequence structure) 。我们的方法使用多层Long Short-TermMemory(LSTM)将输入序列映射到固定维数的向量,然后使用另一个深度LSTM从向量解码目标序列。我们的主要结果是,在来自WMT'14数据集的英语到法语的翻译任务中,LSTM产生的翻译在整个测试集上的BLEU得分达到34.8,其中LSTM的BLEU得分对词汇量以外的单词进行了惩罚。另外,LSTM在长句子上没有困难。为了进行比较,基于短语的SMT系统在同一数据集上的BLEU得分达到33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时,其BLEU得分提高到36.5,接近该任务先前的最佳结果。 LSTM还学习了对词序敏感并且对主动和被动语音相对不变的明智的短语和句子表示。最后,我们发现反转所有源句子(而不是目标句子)中单词的顺序可以显着提高LSTM的性能,因为这样做会在源句子和目标句子之间引入许多短期依赖性,从而使优化问题更加容易