循环神经网络（RNN）之网络结构解析

最新推荐文章于 2024-02-24 17:05:00 发布

AI-CTY

最新推荐文章于 2024-02-24 17:05:00 发布

阅读量1.7k

点赞数

分类专栏：深度学习 Pytorch 文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40334856/article/details/103768249

版权

一、RNN的前向传播结构

在这里插入图片描述

t时刻输入： $X_{t}$ 、 $S_{t-1}$
t时刻输出： $h_{t}$
t时刻中间状态： $S_{t}$

上图是一个RNN神经网络的时序展开模型，中间t时刻的网络模型揭示了RNN的结构。可以看到，原始的RNN网络的内部结构非常简单。神经元A在t时刻的状态仅仅是（t-1）时刻神经元状态 $S_{t-1}$ ，与（t）时刻网络输入 $X_t$ 的双曲正切函数的值；这个值不仅仅作为该时刻网络的输出，也作为该时刻网络的状态被传入到下一个时刻的网络状态中，这个过程叫做RNN的正向传播（forward propagation）

传播中的数学公式（含参数）

在这里插入图片描述

上图表示为RNN网络的完整的拓扑结构，以及RNN网络中相应的参数情况。我们通过对t时刻网络的行为进行数学的推导。在如下的内容中，会出现线性状态和激活状态两种表达，线性状态将用 $*$ 号进行标注。
t时刻神经元状态 ：
$S_t= {\phi}{(S{_t^*})}$
$S{_t^*}=(UX_t+WS_{t-1})$
t时刻的输出状态：
$O_t=\psi{(O{_t^*})}$
$O{_t^*} = VS_t$
我们该如何得到RNN模型中的U、V、W三个全局共享参数的具体值呢？在之后的RNN逆向传播中可以得出具体的情况。

二、BPTT(随时间变化的反向传播算法)

1、损失函数的选取，在RNN中一般选取交叉熵（Cross Entropy）,表达式如下：
$-{\sum_{i=0}^{n}y_ilny_i^*}$
上式为交叉熵的标量的形式， $y_i$ 是真实的标签纸， $y_i^*$ 是模型给出的预测值，在多维输出值的时，则可以通过累加得出n维损失值。交叉熵在应用于RNN需进行微调：首先，RNN的输出是向量的形式，没有必要将所有的维度进行累加一起，直接把损失值用向量进行表达即可；其次，由于RNN模型是序列问题，因此其模型损失不能只是一个时刻的损失，应该包含全部N个时刻的损失。
因此RNN模型在t时刻的损失函数如下：
${Loss}_t = -[y_tln(O_t) + (y_t-1)ln(1-O_t)]$
全部N个时刻的损失函数（全局损失）表达为如下形式：
$-{\sum_{t=1}^NLoss_t}= -{\sum_{t=1}^N[y_tln(O_t) + (y_t-1)ln(1-O_t)]}$

2、 softmax函数的求导公式为（下文用 $\psi 表示$ ）
$\psi'(x)=\psi(x)(1-\psi(x))$

3、激活函数的求导公式为（选取tanh(x)作为激活函数）
$\phi(x) = tanh(x)$
$\phi'(x)=(1-{\phi^2(x)})$

4、 BPTT算法
注：由于RNN模型与时间序列有关，所以使用Back Propagation Through Time(随时间变化反向传播的算法)，但依旧遵循链式求导法则。在损失函数中，虽然RNN的额全局损失是与N个时刻有关的，但下面的推导仅涉及某个t时刻。
（1）求出t时刻下的损失函数关于 $O_t^*$ 的微分：
$\frac{\partial{L_t}}{\partial{O_t^*}} =\frac{\partial{L_t}}{\partial{O_t}} * \frac{\partial{O_t}} {\partial{O_t^*}}=\frac{\partial{L_t}}{\partial{O_t}} * \frac{\partial{\psi{(O_t^*)}}} {\partial{O_t^*}}=\frac{\partial{L_t}}{\partial{O_t}} * \psi'(O_t^*)$

最低0.47元/天解锁文章

AI-CTY

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络（RNN）之网络结构解析

一、RNN的前向传播结构t时刻输入： XtX_{t}Xt 、St−1S_{t-1}St−1t时刻输出： hth_{t}htt时刻中间状态： StS_{t}St上图是一个RNN神经网络的时序展开模型，中间t时刻的网络模型揭示了RNN的结构。可以看到，原始的RNN网络的内部结构非常简单。神经元A在t时刻的状态仅仅是（t-1）时刻神经元状态St−1S_{t-1}St−1，与（t...
复制链接

扫一扫