LSTM神经网络原理

整理自:https://zhuanlan.zhihu.com/p/32085405

符号定义

C[t-1]表示从t-1窗口得到的隐层状态

h[t-1]表示从t-1窗口得到的历史显层状态

X[t]表示t窗口得到的当前显层状态

Z[t]=(X[t] , h[t-1]) 历史+当前合并得到窗口t 总显层信息

所有遗忘神经元都来自于Z[t]经过变换而来,
换句话说,遗忘神经元其实就是Z[t]的多元函数(本文中记为f0,f1,f2...)
一般外层会再嵌套一层sigma或tanh函数,以控制值域。
嵌套这一步骤并不是一成不变的,可以根据训练目标个性化修改。

LSTM模型结构

简述了符号意义 下面是正菜--t-1到t的演变

1. 最先被计算出来的是隐层状态
    C[t-1]*tanh(f0(Z[t]))加上叠加项 tanh(f1(Z[t])) * sigma(f2(Z[t])) 得到C[t]

2. 其次被计算出来的显层状态
    tanh(C[t])*sigma(f3(Z[t])) 得到h[t]

3.输出yt=f4(h[t])

模型训练

最终我们需要训练的就是f0,f1,f2,f3,f4里面的各项参数
反向传播+梯度下降搞定
完结撒花!!!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值