6.9_deep-rnn

最新推荐文章于 2024-04-26 11:26:37 发布

给算法爸爸上香

最新推荐文章于 2024-04-26 11:26:37 发布

阅读量119

点赞数

分类专栏： # Pytorch deep learning 文章标签： rnn 深度学习人工智能

本文链接：https://blog.csdn.net/taifyang/article/details/125033968

版权

deep learning 同时被 2 个专栏收录

111 篇文章 9 订阅

订阅专栏

Pytorch

82 篇文章 5 订阅

订阅专栏

6.9 深度循环神经网络

本章到目前为止介绍的循环神经网络只有一个单向的隐藏层，在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。图6.11演示了一个有 $L$ 个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。

在这里插入图片描述

图6.11 深度循环神经网络的架构

具体来说，在时间步 $t$ 里，设小批量输入 $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ （样本数为 $n$ ，输入个数为 $d$ ），第 $\ell$ 隐藏层（ $\ell=1,\ldots,L$ ）的隐藏状态为 $\boldsymbol{H}_t^{(\ell)} \in \mathbb{R}^{n \times h}$ （隐藏单元个数为 $h$ ），输出层变量为 $\boldsymbol{O}_t \in \mathbb{R}^{n \times q}$ （输出个数为 $q$ ），且隐藏层的激活函数为 $\phi$ 。第1隐藏层的隐藏状态和之前的计算一样：

$\boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)}),$

其中权重 $\boldsymbol{W}_{xh}^{(1)} \in \mathbb{R}^{d \times h}$ 、 $\boldsymbol{W}_{hh}^{(1)} \in \mathbb{R}^{h \times h}$ 和偏差 $\boldsymbol{b}_h^{(1)} \in \mathbb{R}^{1 \times h}$ 分别为第1隐藏层的模型参数。

当 $\ell \leq L$ 时，第 $\ell$ 隐藏层的隐藏状态的表达式为

$\boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)}),$

其中权重 $\boldsymbol{W}_{xh}^{(\ell)} \in \mathbb{R}^{h \times h}$ 、 $\boldsymbol{W}_{hh}^{(\ell)} \in \mathbb{R}^{h \times h}$ 和偏差 $\boldsymbol{b}_h^{(\ell)} \in \mathbb{R}^{1 \times h}$ 分别为第 $\ell$ 隐藏层的模型参数。

最终，输出层的输出只需基于第 $L$ 隐藏层的隐藏状态：

$\boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q,$

其中权重 $\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ 和偏差 $\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}$ 为输出层的模型参数。

同多层感知机一样，隐藏层个数 $L$ 和隐藏单元个数 $h$ 都是超参数。此外，如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算，我们可以得到深度门控循环神经网络。

小结

在深度循环神经网络中，隐藏状态的信息不断传递至当前层的下一时间步和当前时间步的下一层。

注：本节与原书基本相同，原书传送门

给算法爸爸上香

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
6.9_deep-rnn

6.9 深度循环神经网络本章到目前为止介绍的循环神经网络只有一个单向的隐藏层，在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。图6.11演示了一个有LLL个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。图6.11 深度循环神经网络的架构具体来说，在时间步ttt里，设小批量输入Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d（样本数为nnn，输入个数
复制链接

扫一扫