时序网络基础知识

本文介绍了时序网络的基础知识,包括RNN的前向传播与反向传播,分析了RNN的梯度消失问题。接着探讨了GRU,其简化了LSTM的结构,但仍能有效处理长依赖问题。最后,解释了LSTM如何利用遗忘门缓解梯度消失,并概述了GRU相对于LSTM的优势。
摘要由CSDN通过智能技术生成

RNN

前向传播

在这里插入图片描述
t t t t − 1 t-1 t1 t + 1 t+1 t+1为时间序列, s t s_t st表示样本在时间 t t t处的的记忆, s t = f ( W ∗ s t − 1 + U ∗ x t ) s_t=f(W*s_{t-1} +U*x_t) st=f(Wst1+Uxt) W W W表示上一个时间记忆的输入权重, U表示此刻输入样本的权重, V表示输出的样本权重。
t = 1 t =1 t=1时刻, 一般初始化输入 s 0 = 0 s_0=0 s0=0, 随机初始化 W W W U U U V V V,进行下面的公式计算:
h t = U x t + W s t − 1 h_t=Ux_t+Ws_{t-1} ht=Uxt+Wst1
s t = f ( h t ) s_t=f(h_t) st=f(ht)
o t = g ( V s t ) o_t=g(Vs_t) ot=g(Vst)
其中, f f f g g g均为激活函数,其中 f f f可以是 t a n h tanh tanh r e l u relu relu s i g m o i d sigmoid sigmoid等激活函数, g g g通常是 s o f t m a x softmax softmax也可以是其他。
注意:

  1. 这里的 W W W U U U V V V在每个时刻都是相等的(权重共享)。
  2. 隐藏状态可以理解为: s = f ( 现 有 的 输 入 + 过 去 记 忆 总 结 ) s=f(现有的输入+过去记忆总结) s=f(+)
  3. 多层RNN只是多个RNN堆叠,一个RNN即一层,每一层的输出即为下一层的输入。

反向传播

参数的更新采用梯度下降法进行更新,也就是求每个参数的梯度。
每一次的输出值 O t O_t Ot都会产生一个误差值 e t e_t et, 则总的误差可以表示为: E = ∑ t = 1 n e t E=\sum_{t=1}^ne_t E=t=1net
d U = ∂ E ∂ U = ∑ t = 1 n ∂ e t ∂ o t ∂ o t ∂ s t ∂ s t ∂ U dU=\frac{\partial{E}}{\partial{U}}=\sum_{t=1}^n\frac{\partial{e_t}}{\partial{o_t}}\frac{\partial{o_t}}{\partial{s_t}}\frac{\partial{s_t}}{\partial{U}} dU=UE=t=1notetstotUst
d V = ∂ E ∂ V = ∑ t = 1 n ∂ e t ∂ o t ∂ o t ∂ V t dV=\frac{\partial{E}}{\partial{V}}=\sum_{t=1}^n\frac{\partial{e_t}}{\partial{o_t}}\frac{\partial{o_t}}{\partial{V_t}} dV=VE

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值