abstract
This is the first paper that apply dropout to RNNs.
introduction
uncontrained offline handwriting 就是识别图片文本的问题。
解决这个问题的 pipeline (pre-processing module + recognizer):
- 通常有一个 pre-processing module 来提取 image snippets. 每个 image snippets 都包含 one single word or line,然后这些 image snippets 会喂进 recognizer。
- recognizer 的目的就是一次识别 one single line of text。recognizer 应该能识别序列中字母的相关性。
recognizer早期的工作通常使用基于HMM的方法。这种方法的局限性是不能处理 long-term dependencies in sequences,而且HMMs在每一步只能选择一个hidden state。
RNN 是 sequence modeling 的有效方法。那么为什么RNN可以sequence modeling呢?原因就是RNN有recurrent connections,这种结构使它可以用activation来表达过去的输入,因此可以用复杂的结构来model long sequences。但是梯度爆炸和梯度消失还是RNN难以应用的原因。 然后,LSTM就被提出了,RNNs enhanced by LSTM cells 是当时handwriting recognition。
这篇文章是第一篇将dropout应用于RNN的方法。在非RNN的网络中,dropout通常只应用在全连接层。在这篇文章中,将dropout应用于RNN中的某些层(不一定是全连接层)。将dropout应用于RNN的核心研究点就是如何不让dropout影响RNN sequence modeling的能力。这篇文章的观点就是不让dropout影响recurrent connections.
dropout for recurrent neural network
首先来讲一下dropout最原始的思想;
dropout就是在训练过程中随机的移除一些hidden units, 在测试过程中保留所有的units。