李飞飞计算机视觉-自用笔记(五)
10 循环神经网络
RNN:Recurrent Neural Network
输入与输出存在多种对应关系
核心模块:
用公式来表示:
普通的反向传播在RNN中的计算会很繁琐,所以提出了一种沿时间的截断式反向传播方法:即使输入的序列很长,在训练模型时,前向计算若干步,反向传播得出参数
LSTM:Long Short Term Memory长短期记忆网络,可缓解梯度消失和梯度爆炸的问题
h(t):隐藏状态
c(t):单元状态
f遗忘门,决定是否清除单元
i输入门,决定是否写入
g门,写入多少
o输出门,如何隐藏单元
总结
1.RNN在结构设计上非常灵活
2.Vanilla RNN很简洁,但效率不高
3.通常使用LSTM或GRU:相加性相互作用改善梯度流
4.RNN中反向传播过程可能会产生梯度爆炸或消失;爆炸由梯度clipping控制;而消失由LSTM控制
5.研究方向:更好的或更简单的模型