手搓GPT系列之 - RNN网络模型与隐马尔科夫链（HMC）模型的表达力（expressivity）关系

马尔科夫司机

已于 2023-04-24 11:04:30 修改

阅读量563

点赞数 1

分类专栏： nlp 文章标签： gpt rnn 人工智能

于 2023-04-23 20:24:14 首次发布

本文链接：https://blog.csdn.net/marlinlm/article/details/130298887

版权

nlp 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

RNN模型和HMC模型，都是适合处理时间序列的模型。这两者在结构上具有一定的相似性。笔者在学习这两个模型的时候，对他们之间的关系非常感兴趣，但是却一度十分困惑：它们之间是否存在可互相表示的关系？哪一个的通用性更强？答案其实大家心里都有了吧，只是缺了一个严格的证明。本文将为机器学习算法领域的爱好者证明一个大家都知道的事情：可以用经典RNN网络模型来表达隐马尔科夫链模型。

1. 隐马尔科夫链模型

隐马尔科夫链模型说的是，在我们日常生活中，有一些按时间顺序发生的事情，其发生的规律，与背后隐藏的状态 $s$ 有关，这个背后隐藏的状态我们没办法直接观察，但是我们可以断定这个状态的变化具有马尔科夫性。也就是说，每一个时刻 $t$ 下这个状态 $s_t$ ，只与其在上一个时刻的状态 $s_{t-1}$ 有关。我们可以用一个条件概率来表示这种关系，即：
$P(s_t|s_{t-1},\cdots,s_1,s_0) = P(s_t|s_{t-1})$
我们无法直接观察状态 $s_t$ ，我们可以观察的是这些状态表现出来的时间序列事件 $[x_1,x_2,\cdots,x_t]$ 。在特定时刻 $t$ ，事件 $x_t$ 发生的概率与当时的状态有关，我们可以把这种关联性表示为 $p(x_t|s_t)$ 。我们可以通过观察 $0$ 时刻到 $t$ 时刻发生的事件，来预测下一个时刻的状态 $s_{t+1}$ 以及将要发生的事件 $x_{t+1}$ 的概率。在隐马尔科夫链模型中，一个完整的时间序列的联合概率可以表示为：
$P(x_t,\cdots,x_1,s_t,\cdots,s_0) = [\prod P(x_t|s_t)] \cdot [\prod P(s_t|s_{t-1})]\cdot P(s_0) \tag{1}$
其中 $P(s_t|s_{t-1})$ 被称为转移概率， $P(x_t|s_{t})$ 则被称为发射概率。隐马尔科夫链模型可以通过下图来表示：

在这里插入图片描述
可知，HMC模型属于生成式模型。

2. 经典RNN网络模型

不知道是谁开的头，大家喜欢用冰淇淋来比喻RNN网络，咱也学一下。香草味RNN网络，指的就是最经典的RNN网络结构，咱也不清楚为什么香草味是最经典口味，最经典的口味不是原味吗？最经典的RNN模型如下图所示（前向传播）：
在这里插入图片描述

左边是折叠图，右边是把左边的折叠图展开之后的结果。估计学过RNN的朋友已经对这张图非常熟悉了。总之，RNN的基本思路就是，把一个序列上的输入信息按顺序进行输入到同一个网络之中，然后每次输入都可以获得相应的输出。这个方法之所以牛逼就在于，可以把任意长度的序列输入到一个网络中，网络可以将以前输入过的信息跟后边输入的信息产生关联记忆，效果杠杠的，总之非常牛逼。其中：
$\hat{y}_t = crossmax(W_{oh}^Th_t+ b_o ) \tag{2}$
$h_t = \sigma(W_{hh}^Th_{t-1} +W_{ih}^Tx_t + b_h) \tag{3}$

3. 使用RNN模型表示HMC模型

我们用 $l_1(h_{t-1};W_{hh},b_{h1})$ 表示关于 $h_{t-1}$ 的似然公式，用 $l_2(x_t;W_{ih},b_{h2})$ 表示关于 $x_t$ 的似然公式，这样，我们就能把 $h_t$ 表示为两个似然公式的积：
$h_t = l_1(h_{t-1};W_{hh},b_{h1}) \cdot l_2(x_t;W_{ih},b_{h2}) \tag{4}$
为了简化，我们把式（4）写成：
$h_t = l_{\theta_1}(h_{t-1}) \cdot l_{\theta_2}(x_t) \tag{5}$
我们将 $l_{\theta_1}$ 表示成联合概率公式：
$\begin{aligned} l_{\theta_1}(h_{t-1}) &= P(h_{t}|h_{t-1})\cdot P(h_{t-1},\cdots,h_0) \cdot \prod_{i=1}^{t-1} P(x_i|h_i) \\ &=\prod_{i=1}^{t}P(h_{i}|h_{i-1})\cdot P(h_{0}) \cdot \prod_{j=1}^{t-1} P(x_j|h_j) \tag{6} \end{aligned}$
我们将 $l_{\theta_2}$ 表示成条件概率公式：
$l_{\theta_2}(x_{t}) = P(x_{t}|h_{t}) \tag{7}$
(6)、(7)代入(5)中，得：
$\begin{aligned} h_t &= \prod_{j=1}^{t} P(x_j|h_j) \cdot \prod_{i=1}^{t}P(h_{i}|h_{i-1})\cdot P(h_{0}) \\ \end{aligned}$
这个式子与式（1）是等效的。因此我们可以得到：