LSTM 定义:
全称 Long Short Term Memory (长短期记忆) 是一种循环神经网络,LSTM可以利用时间序列对输入进行分析。
LSTM计算公式:
LSTM优缺点:
RNN容易出现网络神经中的两个问题:梯度消失和梯度爆炸。梯度消失是指权重/偏置梯度极小,导致神经网络参数调整率急速下降;梯度爆炸:指权重/偏置梯度极大,导致神经网络参数调整过大,矫枉过正。
LSTM 优点:
LSTM最初用来解决一般神经网络中普遍存在的长期依赖问题,使用LSTM可以有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被忽略(遗忘)。与此同时,LSTM还可以解决RNN中的梯度消失/爆炸问题。
LSTM缺点:
随着文本的增长,LSTM不如self-attention机制。