简单的RNN
假设一个需求:客户发送语句给自动订票系统,网络输出目的地和到达时间。
词语编码向量,这并不难。如“Taibei”会被网络识别为目的地,“Nov 12th”会被识别为时间。
现在可能会遇到一个问题,如果客户说“I want to leave Taibei on Nov 12th”呢?这就需要机器有记忆力,在看到“Taibei”之前已经看到过“leave”这个词汇,从而分辨出发和到达的地点与时间。
这种有记忆力的Network就叫做Recurrent Neural Network(RNN),它的一个特点是会考虑输入序列的顺序。
如下图所示,同样是输入“Taibei”,但由于是前一个词有区别,所以输出的概率是不一样的。
Recurrent Network也可以是双向的:Bidirectional RNN。它在某一时间步,将正向的output和逆向的output,都输入到output layer,产生最终的输出,好处是看的范围更广。
Long Short-term memory(LSTM)
LSTM有1个输出,4个输入,输入包括1个输入讯号和3个控制讯号,负责控制的3个Gate是可以学习到什么时候打开或关闭。RNN每次进来一个input,都会把记忆清洗掉,而LSTM是稍微长点的短记忆。Forget Gate打开的时候,表示记得,关闭的时候表示忘记。
李宏毅老师讲的例子可以看出,Gate的设计思想便是充分利用sigmoid函数与bias的特性,设计开关。
从下图可以看出,对于神经元数量相同的普通网络和LSTM网络,由于要控制3个gate,LSTM需要4倍的参数量。
LSTM的设计思想已经清晰,具体的实现,Keras已经提供了支持,包括"LSTM"、"GRU"以及"SimpleRNN"。