一、前言
GRU是LSTM的一种变体,综合来看:
1、两者的性能在很多任务上不分伯仲。
2、GRU 参数相对少更容易收敛,但是在数据集较大的情况下,LSTM性能更好。
3、GRU只有两个门(update和reset),LSTM有三个门(forget,input,output)
LSTM还有许多变体,但不管是何种变体,都是对输入和隐层状态做一个线性映射后加非线性激活函数,重点在于额外的门控机制是如何设计,用以控制梯度信息传播从而缓解梯度消失现象。
二、结构
1、LSTM
关于LSTM的网络上有许多介绍,这里贴一下网络结构图作为对比说明:
LSTM作为RNN的变体,设计了input gate、forget gate和output gate对长期信息与当期信息的进行处理,以达到维持长期依赖信息的作用,公式如下:
从结构上来看,input gate负责控制new memory,即输入信息,forget gate负责控制上一轮的memory,即长期信息,output gate对前两者的激活信息进行控制,输出h