Pytorch学习（二）

最新推荐文章于 2023-06-04 07:54:46 发布

Andrew Noah

最新推荐文章于 2023-06-04 07:54:46 发布

阅读量69

点赞数

分类专栏：动手学习深度学习笔记（Pytorch

本文链接：https://blog.csdn.net/qq_34301511/article/details/104318508

版权

动手学习深度学习笔记（Pytorch 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

循环神经网络

本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量 $H$ ，用 $H_{t}$ 表示 $H$ 在时间步 $t$ 的值。 $H_{t}$ 的计算基于 $X_{t}$ 和 $H_{t-1}$ ，可以认为 $H_{t}$ 记录了到当前字符为止的序列信息，利用 $H_{t}$ 对序列的下一个字符进行预测。
Image Name

循环神经网络的构造

我们先看循环神经网络的具体构造。假设 $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ 是时间步 $t$ 的小批量输入， $\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$ 是该时间步的隐藏变量，则：

$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$

其中， $\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ ， $\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ ， $\boldsymbol{b}_{h} \in \mathbb{R}^{1 \times h}$ ， $\phi$ 函数是非线性激活函数。由于引入了 $\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ ， $H_{t}$ 能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。由于 $H_{t}$ 的计算基于 $H_{t-1}$ ，上式的计算是循环的，使用循环计算的网络即循环神经网络（recurrent neural network）。