时序网络基础知识

最新推荐文章于 2022-08-14 00:26:41 发布

入坑&填坑

最新推荐文章于 2022-08-14 00:26:41 发布

阅读量2.2k

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_39994739/article/details/123031060

版权

本文介绍了时序网络的基础知识，包括RNN的前向传播与反向传播，分析了RNN的梯度消失问题。接着探讨了GRU，其简化了LSTM的结构，但仍能有效处理长依赖问题。最后，解释了LSTM如何利用遗忘门缓解梯度消失，并概述了GRU相对于LSTM的优势。

摘要由CSDN通过智能技术生成

时序网络基础知识

RNN
GRU
- GRU的前向传播
- 相较于LSTMGRU的优势
LSTM
- LSTM的前向传播
- LSTM如何解决梯度消失

RNN

前向传播

在这里插入图片描述
$t$ 、 $t - 1$ 、 $t + 1$ 为时间序列， $s_t$ 表示样本在时间 $t$ 处的的记忆， $s_t=f(W*s_{t-1} +U*x_t)$ ， $W$ 表示上一个时间记忆的输入权重, U表示此刻输入样本的权重, V表示输出的样本权重。
在 $t = 1$ 时刻, 一般初始化输入 $s_0=0$ , 随机初始化 $W$ 、 $U$ 、 $V$ ，进行下面的公式计算：
$h_t=Ux_t+Ws_{t-1}$
$s_t=f(h_t)$
$o_t=g(Vs_t)$
其中， $f$ 和 $g$ 均为激活函数，其中 $f$ 可以是 $t a n h$ ， $r e l u$ ， $s i g m o i d$ 等激活函数， $g$ 通常是 $s o f t m a x$ 也可以是其他。
注意:

这里的 $W$ 、 $U$ 、 $V$ 在每个时刻都是相等的(权重共享)。
隐藏状态可以理解为: $s = f (现有的输入 + 过去记忆总结)$ 。
多层RNN只是多个RNN堆叠，一个RNN即一层，每一层的输出即为下一层的输入。

反向传播

参数的更新采用梯度下降法进行更新，也就是求每个参数的梯度。
每一次的输出值 $O_t$ 都会产生一个误差值 $e_t$ , 则总的误差可以表示为： $E=\sum_{t=1}^ne_t$
$dU=\frac{\partial{E}}{\partial{U}}=\sum_{t=1}^n\frac{\partial{e_t}}{\partial{o_t}}\frac{\partial{o_t}}{\partial{s_t}}\frac{\partial{s_t}}{\partial{U}}$
$dV=\frac{\partial{E}}{\partial{V}}=\sum_{t=1}^n\frac{\partial{e_t}}{\partial{o_t}}\frac{\partial{o_t}}{\partial{V_t}}$

最低0.47元/天解锁文章

入坑&填坑

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
时序网络基础知识

时序网络基础知识RNN前向传播反向传播RNN缺点GRUGRU的前向传播相较于LSTMGRU的优势LSTMLSTM的前向传播LSTM如何解决梯度消失RNN前向传播ttt、t−1t-1t−1、t+1t+1t+1为时间序列，sts_tst表示样本在时间ttt处的的记忆，st=f(W∗st−1+U∗xt)s_t=f(W*s_{t-1} +U*x_t)st=f(W∗st−1+U∗xt)，WWW表示上一个时间记忆的输入权重, U表示此刻输入样本的权重, V表示输出的样本权重。在t=1t =1t=1时刻
复制链接

扫一扫