深度学习笔记之循环神经网络(三)循环神经网络思想

静静的喝酒

已于 2023-05-24 09:37:16 修改

阅读量547

点赞数

分类专栏：机器学习深度学习文章标签：深度学习神经网络递归神经网络

于 2023-05-18 16:48:25 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/130729417

版权

本文介绍了循环神经网络（RNN）的思想，从潜变量自回归模型的角度出发，解释了RNN如何通过隐藏层的计算来描述序列信息的表示。同时，详细讨论了困惑度作为衡量语言模型优劣性的指标，以及在RNN中如何使用交叉熵损失函数计算困惑度。

摘要由CSDN通过智能技术生成

深度学习笔记之循环神经网络——循环神经网络思想

引言

引言

上一节介绍了基于统计算法的语言模型。本节将介绍基于神经网络的序列模型——循环神经网络。

回顾：潜变量自回归模型

关于潜变量自回归模型，它的概率图结构表示如下：
潜变量自回归模型——概率图结构
这里仅观察 $t$ 时刻到 $t + 1$ 时刻随机变量的变化情况。它的变化过程可划分为两个部分：

$x_{t-1},h_{t-1} \Rightarrow h_{t}$ 过程。其概率图结构表示为：

对应的因子分解可表示为： $\mathcal P(h_t \mid h_{t-1},x_{t-1})$ 。如果使用自回归模型去描述 $h_t$ 的后验概率，它可以表示为：
就是以 $h_{t-1},x_{t-1}$ 作为模型输入，其输出结果对 $h_t$ 的分布进行描述。 $\lambda$ 为模型参数。
$\mathcal P(h_t \mid h_{t-1},x_{t-1}) = \mathcal P [h_t \mid f(h_{t-1},x_{t-1};\lambda)]$
$x_{t-1},h_{t} \Rightarrow x_{t}$ 过程。同理，其概率图结构表示为：

同理，它的因子分解表示为： $\mathcal P(x_t \mid h_{t},x_{t-1})$ ，对该条件概率进行建模，对应后验概率可表示为：
$\mathcal P(x_t \mid h_t,x_{t-1}) = \mathcal P[x_t \mid f(h_t,x_{t-1};\eta)]$

最终通过对上述两步骤的交替执行，从而完成对序列信息的表示。也就是说，在遍历到最后一个随机变量 $x_{\mathcal T}$ ，得到相应的特征结果：
$\mathcal P(h_{\mathcal T + 1} \mid h_{\mathcal T},x_{\mathcal T}) = \mathcal P[h_{\mathcal T + 1} \mid f(h_{\mathcal T},x_{\mathcal T};\theta)]$

循环神经网络思想

观察上述步骤，无论是 $\mathcal P(h_t \mid h_{t-1},x_{t-1})$ 还是 $\mathcal P(x_t \mid h_t,x_{t-1})$ ，它们都属于推断过程。而循环神经网络 $(\text{Recurrent Neural Network})$ ，就是将上述推断过程通过神经网络的方式描述出来。

循环神经网络隐藏层的计算图展开结构表示如下：
循环神经网络——展开图结构
该隐藏层结构的前馈计算过程表示为如下形式：
以 $t$ 时刻到 $t + 1$ 时刻的计算过程为例，并且仅包含 $1$ 个隐藏层。
$\begin{cases} h_{t+1} = \sigma(\mathcal W_{h_t \Rightarrow h_{t+1}} \cdot h_{t} + \mathcal W_{x_t \Rightarrow h_{t+1}} \cdot x_t + b_{h_{t+1}}) \\ \mathcal O_{t+1} = \phi(\mathcal W_{h_{t+1} \Rightarrow \mathcal O_{t+1}} \cdot h_{t+1} + b_{\mathcal O_{t+1}}) \\ \end{cases}$