LSTM,全称(Long Short Term Memory ,LSTM)长短期记忆网络。
由于传统RNN有梯度消失和爆炸的问题,在反向传播时,梯度最终的结果会趋势0或无穷,引发严重的数值问题,从而参数得不到更新,学习能力有限,在实际任务中的效果往往不到人们所想的效果和需求。所以LSTM出现了。
LSTM可以对有价值的信息进行长期记忆,从而减小循环神经网络的学习难度,从而应用在语音识别,命名主体识别,文本分类,机器翻译等任务中。
那么LSTM的工作原理是什么?它是如何实现长短期记忆功能的呢?
先看下传统Rnn的结果图:
神经元里就一个激活函数tanh的操作。
再看下LSTM的结构图:
与上图对比可知,与传统RNN相比,LSTM的内部结构经过了更为复杂和精心的设计,加入了门控的概念,从做到右依次为:1)遗忘门;2)输入门;3)输出门。
每个门都是包含一个Sigmoid函数激活层和pointwise(或叫elment-wise)乘法操作,pointwise