马尔可夫的各种模型 Markov chain HMM CRF

文件夹66

于 2021-04-29 23:00:17 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_42275073/article/details/116266439

版权

机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

马尔可夫模型

马尔可夫模型是用来描述状态之间随时间变化的模型。
随机过程：假设随机变量 $X$ （可以是连续变量或离散变量）在时刻 $t$ 时的状态是 $X_t$ ， $X$ 的取值范围是状态空间 $S$ ，时刻 $t=1,2,\ldots$ 。则随机变量 $X$ 构成的序列 $\{X_1,X_2,\ldots,X_n\}$ 则可以称为随机过程。我们可以使用概率的乘积来表示观测到的这个随机过程的联合概率分布：
$p(X_1,X_2,\ldots,X_n)=p(X_1)\prod_{i = 2}^{n}p(X_i|X_{1},\ldots,X_{i-1})$
从这个式子看起来，随机过程的概率描述非常的复杂，每个时刻的状态依赖于所有以前的状态，计算量会很大。所以我们可以尝试用先验假设对其进行简化，使得该联合概率分布更容易计算。
如果是条件独立性假设，也就是各个时刻的状态之间相互独立，则会得到：
$p(X_1,X_2,\ldots,X_n)=p(X_1)p(X_2)\ldots p(X_n)$
如果是齐次马尔可夫假设，也就是每个时刻的状态只会依赖于上一个时刻的状态，则会得到：
$p(X_{t+1}|X_t,\ldots,X_0)=p(X_{t+1}|X_t)$ 。
这就得到了一阶马尔可夫链，类似，如果每个时刻的状态只会依赖前n个时刻的状态，则会得到n阶马尔可夫链。
一阶马尔可夫链可以用 $S$ 和 $A$ 来描述，其中 $S$ 是状态空间， $A$ 是状态转移概率矩阵，设初始状态是 $\pi$ ，经过n次状态转移后，到达各个状态的概率为 $\pi A^n$ ，随着时间的推移，最终马尔可夫链会收敛到一个稳定概率分布，且这个稳定概率分布和初始状态无关。

下面将介绍两种经典的概率图模型——HMM和CRF。HMM，全称隐马尔科夫模型，是动态贝叶斯网络的分支，是有向图；CRF，全称马尔科夫随机场，是马尔科夫网络的分支，是无向图。如果想了解概率图，建议先去看看贝叶斯网络（有向图）以及马尔科夫网络（无向图）这两种概率图的基础介绍，这里仅介绍这两个常用的模型，后续有时间会继续补充。

介绍两个概率图模型后，再对两者进行对比。

HMM

从隐马尔可夫的名字可以看出，该模型中存在某种隐藏的组件。
具体地说，HMM是一个关于时序的概率模型，包括一个隐藏的马尔可夫链随机生成的不可观测的状态随机序列，以及一个由状态生成观测的过程。最终会形成一个状态序列和观测序列。该模型属于典型的生成模型。

什么时候可能会用到HMM

这个问题在参考文献[4]中给出了解释：当需要建模的对象是序列时，比如一段文字、一段时间序列等等；且当该建模问题中存在两种变量：一种可以观测到，一种不可以观测到。
就以输出法为例，我们心里面想的话就是一段隐藏序列，具体的说应该是隐藏的状态序列，而具体的打印在文档中的一系列字符就是观测序列。每个时刻的观测值（每个时刻用输入法打出的字）的产生以当前时刻遍历到的内心隐藏序列的当前字符为依据。

举例

李航的统计学习方法中提供了一个方便理解的例子：盒子和球模型。这里简要的讲一下，如果不想看可以直接跳过。
在这里插入图片描述

上面是提供的已知信息和抽球规则。
假设观测了5次，那么将会产生长度为5的隐藏状态序列和观测序列，其中隐藏状态序列就是我们看不到的盒子序列，而观测序列就是我们看到的球的颜色序列。
现在我们可以把这一整个问题用HMM来抽象描述：

所有状态值可能的取值构成的集合： $Q=\{盒子1,盒子2,盒子3,盒子4\}$ ；
所有观测值可能的取值构成的集合： $V=\{红,白\}$ ；
长度为 $T$ 的状态序列： $I=\{i_1,i_2,\ldots,i_T\}$ ；
$I$ 对应的长度为 $T$ 的观测序列： $O=\{o_1,o_2,\ldots,o_T\}$ ；
状态转移概率矩阵： $A=[a_{ij}]_{N\times N}$ ，其中 $a_{ij}=P(i_{t+1}=q_j|i_{t}=q_i)$ ，也就是从状态 $q_i$ 转移到 $q_j$ 的概率，这个概率不会随时间而变化，这里 $A=\left[\begin{array}{cccc} 0 & 1 & 0 & 0 \\ 0.4 & 0 & 0.6 & 0 \\ 0 & 0.4 & 0 & 0.6 \\ 0 & 0 & 0.5 & 0.5 \end{array}\right]$ 。
观测概率矩阵： $B=[b_{j}(k)]_{N\times M}$ ，其中 $b_{j}(k)=P(o_t=v_k|i_t=q_j)$ ，也就从状态 $q_j$ 生成观测 $v_k$ 的概率，这个概率也不会随时间而变化，这里 $B=\left[\begin{array}{cc} 0.5 & 0.5 \\ 0.3 & 0.7\\ 0.6 & 0.4\\ 0.8 & 0.2 \end{array}\right]$ 。
初始状态概率向量： $\pi=(0.25,0.25,0.25,.25)$ ，因为题目说明了开始时等概率地随机从四个盒子中抽取一个。

这样，盒子与球的问题就直接被抽象成HMM问题啦。

观测序列的生成

给定一个HMM模型 $\lambda=(A,B,\pi)$ ，现在描述如何产生观测序列 $O=(o_1,o_2,\ldots,o_T)$ 。从上面的分析就可以看出，过程很简单，所以直接放图：
在这里插入图片描述

为什么HMM是生成模型

HMM是对隐藏状态 $P (x)$ 进行建模，然后对 $P (y ∣ x)$ （给定隐藏状态下，观测值）进行建模，所以可以认为其拟合了 $P (x, y)$ ，所以是生成模型。

HMM的3个基本问题

待更

MRF

马尔可夫随机场（Markov Random Field），又称概率无向图。

什么是随机场

参考文献[5]，随机场是由若干个位置组成的整体，当给每一个位置按照某种分布随机赋予一个值后，其全体就叫随机场。
MRF是随机场的一个特例，它假设随机场中每一个位置的赋值仅仅和它相邻的位置的赋值有关，和其他不相邻的位置的赋值无关。
CRF（条件随机场）是给定随机变量 $X$ 的条件下，随机变量 $Y$ 的马尔科夫随机场。

主要是本人在初学时对这几个概念有点糊涂，所以这里将这几个概念放在一起比较。

概率无向图（MRF）表示的随机变量之间存在的三个性质

局部马尔可夫性：设无向图 $G$ ， $v$ 是该图中的任意一个节点，其表示的随机变量为 $Y_v$ ， $W$ 是与 $v$ 有边连接的所有节点， $O$ 是 $v$ 、 $W$ 之外的其他节点。
$P(Y_v|Y_W)=P(Y_v|Y_W,Y_O)$ 可以理解成，节点只会依赖与其相邻的节点。
成对马尔可夫性：设 $u$ 与 $v$ 没有边相连， $O$ 是除去 $u 、 v$ 以外的其他节点构成的节点集。
$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$ 可以理解成，当两个节点之间没有边时，在给定了其他所有节点的条件下，这两个节点之间是独立的。
全局马尔可夫性：设集合 $A$ 、 $B$ 被集合 $C$ 分开，即这两个集合之间的所有可能的路径都会经过C，那么：
$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$ 也就是说，给定一个集合C，如果有两个集合可以由该集合完全阻塞，那么这两个集合关于C是条件独立的。

概率无向图（MFC）的因子分解

这里将会介绍一个团的概念，《统计学习方法》中给出定义：一个无向图G中任何两个节点均有边连接的节点子集称为团。也就是说团是一个无向图的子图，该子图是一个完全图。因而最大团的概念也非常清楚，在最大团的基础上，不能再新添加进任何节点（因为新加任何的节点都会使得该子图不再是团）。

因子分解将整个概率无向图表示成若干个联合概率的乘积形式，具体地，是将MFC的随机变量的联合概率分布表示成MFC的最大团上的函数值的乘积形式。
设 $C$ 是图 $G$ 的最大团， $Y_C$ 是 $C$ 中所有节点对应的随机变量， $\psi_C$ 是团上的函数，这里定义：
$P(Y)=\frac{1}{{Z}}\prod_C\psi_C(Y_C)$ 其中 $Z$ 是规范化因子， $Z=\sum_Y\prod_C\psi_C(Y_C)$ ，其中 $\psi(·)$ 称为势函数，常见形式为指数函数： $\psi_c(Y_c)=exp\{-E(Y_c)\}$ 。
这里有一个疑问，感觉这个形式和Gibbs分布的形式好像啊……后来查了一下，这个因子分解好像就是Gibbs分布。

任何一个概率图无向图的联合概率分布都可以表示成因子分解的形式，即都可以表示成最大团们上面的势函数的乘积形式（这也叫Hammersley Clifford定理）。

CRF（条件随机场）

设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是给定 $X$ 时 $Y$ 的条件概率分布，若随机变量 $Y$ 构成的是一个马尔可夫随机场，则称条件概率分布 $P (Y ∣ X)$ 是条件随机场。回忆前面提到的马尔可夫随机场的定义（节点只依赖于其相连的节点），可以得到概率描述：
$P(Y_v|X,Y_w,w\neq v)=P(Y_v|X,Y_w,w\sim v)$ $w\sim v$ 表示两个节点之间有边相连，这个数学描述可以解释成：在给定 $X$ 的条件下， $Y$ 满足马尔可夫随机场。在CRF中，只会有两种变量：X和Y。

什么时候可能会用到CRF

仍然以句子为例，对于一个sentence，现在我要做的工作是对其进行词性标注，假设是"I am a student"，虽然我的英语很渣，但还是会知道，及物动词后面一般跟名词，不及物动词后面一般跟介词，因而就有了相邻词性之间的依赖关系。单词便可以抽象成 $X$ ，其对应的词性可以抽象成 $Y$ ，那么整个问题便可以用CRF来建模。

线性链条件随机场（Linear-CRF）

线性链表示的两个随机序列 $X=(X_1,X_2,\ldots,X_n)$ 、 $Y=(Y_1,Y_2,\ldots,Y_n)$ ，且 $P (Y ∣ X)$ 构成条件随机场，则这个条件随机场又可以叫线性链条件随机场。
《统计学习方法》中给出了两个示例图：
在这里插入图片描述
用公式来表示，即： $P(Y_v|X,Y_1,Y_2,\ldots,Y_{v-1},Y_{v+1},Y_n)=P(Y_v|X,Y_{v-1},Y_{v+1})$

简化形式

简化形式也很简单，节点特征函数 $s_l$ 和局部特征函数 $t_k$ 统计表示成 $f_k$ ，权值统一表示成 $w_k$ ，假设特征函数 $f_k$ 提取第 $k$ 个特征，则 $f_k(x,y)=\sum_ i(f(y_i,y_{i+1},x))$ 。用 $F$ 表示 $K$ 个特征的集合，用 $w$ 表示所有特征的权值，简化形式可以表示成
在这里插入图片描述

矩阵形式

略。

CRF的3个基本问题

待更。

参考列表

1.https://www.cnblogs.com/gemstone/archive/2012/09/05/2671577.html
2.李航《统计学习方法》
3.https://zhuanlan.zhihu.com/p/33397147
4.https://zhuanlan.zhihu.com/p/29938926
5.https://zhuanlan.zhihu.com/p/259660645
6.https://zhuanlan.zhihu.com/p/29989121

文件夹66

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
马尔可夫的各种模型 Markov chain HMM CRF

文章目录一览马尔可夫模型HMM什么时候可能会用到HMM相关定义举例观测序列的生成为什么HMM是生成模型HMM的3个基本问题MRF什么是随机场概率无向图（MRF）表示的随机变量之间存在的三个性质概率无向图（MFC）的因子分解CRF（条件随机场）什么时候可能会用到CRF线性链条件随机场（Linear-CRF）相关定义和参数化形式简化形式矩阵形式CRF的3个基本问题参考列表马尔可夫模型马尔可夫模型是用来描述状态之间随时间变化的模型。随机过程：假设随机变量XXX（可以是连续变量或离散变量）在时刻ttt时的状态
复制链接

扫一扫