论文阅读笔记（5）——《Sequence to Sequence Learning with Neural Networks》

最新推荐文章于 2025-04-03 19:43:36 发布

StriveQueen

最新推荐文章于 2025-04-03 19:43:36 发布

阅读量553

点赞数

分类专栏：论文阅读笔记文章标签：机器学习神经网络算法

本文链接：https://blog.csdn.net/strivequeen/article/details/109205775

版权

1 Introduction
2 The Model
3 Experiments
4 Related work
5 Conclusion

Abstract: DNN可以在有大量标记训练集下表现很好，但是无法处理用于序列映射到序列。在本文中，我们提出了一种端到端的序列训练方法，可以对序列结构做最小的假设。我们的方法使用了多层LSTM将输入序列映射成一个固定维度的向量，然后用另一个深度LSTM从向量中解码出目标序列。

1 Introduction

DNN功能强大：DNN在语音识别和视觉目标检测等困难领域都有很好的表现。DNN可以执行任意数量的并行计算。只要有足够的标记训练集来指定网络参数，就可以用监督反向传播来训练大型DNN。因此，若存在一个参数设置能使大型DNN网络获得良好结果，那么监督反向传播将找到这些参数并解决这个问题。
DNN只能用于输入和输出可以用固定维度进行编码的问题：这是一个重要的局限性，因为很多重要问题最好用一些未知长度的序列表示。比如语音识别和机器翻译是顺序问题。问答系统也类似。
本文使用一种LSTM（长短期记忆）的结构来解决一般的seq到seq的问题：一个LSTM用来读取输入序列，一次一个时间步，用来获得大的固定维度向量表示；另一个LSTM从向量中提取输出序列。第二个LSTM实质上是循环神经网络模型，只是它的输入序列是有条件的。
此结构可以很好地处理长句子：尽管之前有研究者也采用过相关结构，但是很难处理长句子。技巧在于LSTM反向读取输入句子，因为这样做会在数据中引入许多短期依赖关系，从而使优化问题更容易。因此，SGD可以学到不再受长句子困扰的LSTM。反转原句中的单词的简单技巧是这项工作的关键技术贡献之一。
LSTM的有用属性：它学会了将可变长度的输入句子映射到固定向量表示。
BLEU 是一种用于评估从一种自然语言到另一种自然语言的机器翻译的质量的算法。具体了解可参考文章：自然语言处理——BLEU详解以及简单的代码实现.
SMT ，统计机器翻译，其翻译是根据统计模型生成的，其参数来源于双语文本语料库的分析。

2 The Model

RNN是前馈神经网络对序列seq的自然推广。
只要事先知道输入与输出之间的映射，RNN可以容易地将seq映射到seq。然而，因为复杂和非单调关系的问题的输入和输出序列的长度不同，如何将RNN应用于这些问题还不清楚。
一般的序列学习的简单策略是用RNN将输入映射为定长的向量，然后用另一个RNN将向量映射成目标序列。虽然RNN原则上可以工作，但是由于序列的长时间依赖使得RNN很难训练成功。LSTM 可以解决这个问题。
LSTM的目标函数是估计对输入序列 $\left\{x_{1}, x_{2}, \cdots, x_{T}\right\}$ 来说， $\left\{y_{1}, y_{2}, \cdots, y_{T^{\prime}}\right\}$ 是其对应的输出序列的条件概率 $P\left(y_{1}, y_{2}, \cdots, y_{T^{\prime}} \mid x_{1}, x_{2$

最低0.47元/天解锁文章