整理自:https://zhuanlan.zhihu.com/p/32085405
符号定义
C[t-1]表示从t-1窗口得到的隐层状态
h[t-1]表示从t-1窗口得到的历史显层状态
X[t]表示t窗口得到的当前显层状态
Z[t]=(X[t] , h[t-1]) 历史+当前合并得到窗口t 总显层信息
所有遗忘神经元都来自于Z[t]经过变换而来,
换句话说,遗忘神经元其实就是Z[t]的多元函数(本文中记为f0,f1,f2...)
一般外层会再嵌套一层sigma或tanh函数,以控制值域。
嵌套这一步骤并不是一成不变的,可以根据训练目标个性化修改。
LSTM模型结构
简述了符号意义 下面是正菜--t-1到t的演变
1. 最先被计算出来的是隐层状态
C[t-1]*tanh(f0(Z[t]))加上叠加项 tanh(f1(Z[t])) * sigma(f2(Z[t])) 得到C[t]
2. 其次被计算出来的显层状态
tanh(C[t])*sigma(f3(Z[t])) 得到h[t]
3.输出yt=f4(h[t])
模型训练
最终我们需要训练的就是f0,f1,f2,f3,f4里面的各项参数
反向传播+梯度下降搞定
完结撒花!!!