[强化学习一]隐马尔可夫基本概念_强化学习结合信息隐藏-CSDN博客

本文链接：https://blog.csdn.net/qwe900/article/details/113095970

文章目录

- 隐马尔可夫模型

隐马尔可夫模型

隐马尔可夫模型，（hidden Markov model）是可用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的模型，属于生成模型。本章首先介绍隐马尔可夫模型的基本概念，然后分别叙述隐马尔可夫模型的概率计算方法，学习算法以及预测算法。隐马尔可夫模型再语音识别，自然语言处理，生物信息，模式识别等领域有着广泛的应用。

内容出自李航老师的《统计学习方法》，结合个人理解补充一些推导过程。

1.隐马尔可夫模型的基本概念

定义：隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。

隐藏的马尔可夫链随机生成的状态的序列，称为状态序列。(state sequence)
每个状态生成一个观测，由此产生的观测的随机序列，称为观测序列。( observation sequence)
系列的每一个未知又可以看作是一个时刻。

隐马尔可夫模型由初始概率分布，状态转移概率分布以及观测概率分布确定。隐马尔可夫模型的形式定义如下：

$Q$ 是所有可能状态的集合， $V$ 是所有可能的观测的集合：所有可能的情况在这里

$Q=\{q_1,...q_N\},V=\{v_1,...v_M\}$

$N$ 是可能的状态数， $M$ 是可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。这里表示当前情况的状态和观测
$I=\{i_1,...i_T\},O=\{o_1,...o_T\}$
$A$ 是状态转移概率矩阵：

$A=[a_{ij}]_{N\times N}$

其中：
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i),i=1,2,...,N;j=1,2,...,N$

$a_{ij}$ 是时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 状态转移到状态 $q_j$ 的概率。

$B$ 是观测概率矩阵：
$B=[b_j(K)]_{N \times M}$

其中：
$b_{ij}=P(o_{t}=v_k|i_t=q_j),k=1,2,...,M;j=1,2,...,N$

$b_{ij}$ 是时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。

$\pi$ 是初始状态概率向量

$\pi=(\pi_i)$

其中，
$\pi_i=P(i_1=q_1), \ i=1,2,...,N$

$\pi_{i}$ 是时刻 $t = 1$ 时处于状态 $q_i$ 的概率。

隐马尔可夫模型由初始状态概况向量 $\pi$ 、状态转移矩阵 $A$ 和观测矩阵 $B$ 决定。

$\pi$ 和 $A$ 决定状态序列；
$B$ 决定观测序列；

因此，隐马尔可夫模型可以用三元符号表示，称为隐马尔可夫模型的三要素，即
$\lambda=(A,B,\pi)$

状态转移矩阵 $A$ 和初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。
观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

从定义可知，隐马尔可夫模型作了两个基本假设：

(1) 齐次马尔可夫决策，即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于前一时刻的状态，与其他时刻 $t$ 无关；

(2)观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及其状态无关；

隐马尔可夫模型可以用于标注，这时状态对应着标记。标注问题是给定观测的序列预测其对应的标记序列。可以假设标注问题的数据是由隐马尔可夫模型生成的。这样就可以利用隐马尔可夫模型的学习和预测算法进行标注。

例1：盒子和球的模型，假设有 $4$ 个盒子，每个盒子里都装有红色和白色两种颜色的球：

盒子号	1	2	3	4
红球数	5	3	6	8
白球树	5	7	4	2

按照下面的方法抽球，产生一个球的颜色的观测序列：

开始，从 $4$ 个盒子里以等概率随机选取 $1$ 个盒子，从这个盒子里随机抽出 $1$ 个球，记录其颜色后，放回；
然后，从当前盒子随机转移到下一个盒子，规则是：如果当前的盒子是盒子 $1$ ，那么下一个盒子一定是盒子 $2$ ；如果当前是盒子 $2$ 或 $3$ ，那么分别以 $0.4$ 和 $0.6$ 的概率转移到左边或者右边的盒子；如果当前盒子是盒子 $4$ ，那么各以0.5的概率停留在盒子4或者转移到盒子 $3$ ；
确定转移的盒子后，再从这个盒子里随机抽出 $1$ 个球，记录其颜色，放回；
如此下去，重复进行 $5$ 次，得到一个球的颜色的观测序列：

$O = (R e d, R e d, W h i t e, W h i t e, R e d)$

在这个过程中，观察者只能观测到球的颜色的序列，观测不到球是从哪个盒子取出的，即观测不到盒子的序列。

在这个例子中有两个随机序列，一个是盒子的序列(状态序列)，一个是球的颜色(观测序列)。盒子的序列是隐藏的，只有后者球的颜色是可观测的。根据所给条件，可以确定状态集合，序列长度以及模型的三要素。

盒子对应状态，状态的集合是：
$Q=\{Box1,Box2,Box3,Box4\},N=4$

球的颜色对应观测，观测的集合是：
$V=\{Red,White\}，M=2$
状态序列和观测序列长度为 $T = 5$ ，重复进行了5次。

初始的概率分布为，即随机从4个盒子里抽取一个：
$\pi=(0.25,0.25,0.25,0.25)^T$
状态转移概率分布为，横向和纵向分别表示盒子1234，一共有16种转移的可能：
$\begin{aligned} A=\begin{bmatrix} 0 & 1 & 0 & 0 \\ 0.4 & 0 & 0.6 & 0 \\ 0 & 0.4 & 0 & 0.6 \\ 0 & 0 & 0.5 & 0.5 \\ \end{bmatrix} \end{aligned}$
观测概率分布为：
$\begin{aligned} B=\begin{bmatrix} 0.5 & 0.5 \\ 0.3 & 0.7 \\ 0.6 & 0.4 \\ 0.8 & 0.2 \\ \end{bmatrix} \end{aligned}$

1.1 隐马尔可夫模型的三个基本问题

隐马尔可夫模型有三个基本问题：

概率计算问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。
学习问题。已知观测序列 $O=(o_1,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 的参数，使得该模型下观测序列的 $P(O|\lambda)$ 最大。即用极大似然估计的方法估计参数。

预测问题，也称为解码问题。已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,...,o_T)$ ，求对给定观测序列条件概率 $P(O|\lambda)$ 最大的状态序列 $I=\{i_1,...i_T\}$ 。即给定观测序列，求最有可能的对应的状态序列。

基本问题	已知	决策变量	目标
概率计算问题	模型 $\lambda$ ，观测序列 $O$	无	计算出 $P(O\mid\lambda)$
学习问题	观测序列 $O$	模型 $\lambda$ 的参数	$max\ P(O\mid\lambda)$
预测问题	模型 $\lambda$ ，观测序列 $O$	状态序列 $I$	$max\ P(O\mid\lambda)$

三要素	矩阵内元素的含义	计算公式
状态转概率矩阵 $A$	$a_{ij}$ 是时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 状态转移到状态 $q_j$ 的概率。	$a_{ij}=P(i_{t+1}=q_j\mid i_t=q_i)$
观测概率矩阵 $B$	$b_{ij}$ 是时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。	$b_{ij}=P(o_{t}=v_k\mid i_t=q_j)$
初始状态概率向量 $\pi$	$\pi_{i}$ 是时刻 $t = 1$ 时处于状态 $q_i$ 的概率。	$\pi_i=P(i_1=q_1)$

2.概率计算方法

主要包括观测序列概率 $P(O|\lambda)$ 的前向和后向算法。

2.1 直接计算法

状态序列 $I=(i_1,i_2,...,i_T)$ 的概率是，从初始概率 $\pi$ 出发，依次转移相乘直到最后一个状态：
$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_{T}}$
对固定的状态序列 $I=(i_1,i_2,...,i_T)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率是：
$P(O|I,\lambda)=P(O_1|I_1,\lambda)P(O_2|I_2,\lambda)...P(O_T|I_T,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$

$P(O|I,\lambda)$ 中 $O$ 和 $I$ 有关，是从某状态 $I$ 下观测到状态 $O$ 的概率，有 $T$ 个。而 $P(I|\lambda)$ 是状态之间的转移过程，有 $T - 1$ 个，只和下一个状态有关，表现为转移状态的乘积。

$O$ 和 $I$ 同时出现的联合概率为：
$\begin{aligned} P(O,I|\lambda)&=P(O|I,\lambda)P(I|\lambda) \\ &=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_{T}}\times b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T) \\ &=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)a_{i_2i_3}...a_{i_{T-1}i_{T}}b_{i_T}(o_T) \end{aligned}$

然后，对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，即：
$\begin{aligned} P(O,I|\lambda)&=\sum_IP(O|I,\lambda)P(I|\lambda) \\ &=\sum_{i_1,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)a_{i_2i_3}...a_{i_{T-1}i_{T}}b_{i_T}(o_T) \end{aligned}$

2.2 前向算法

前向概率：给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，即为

$\alpha_i=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)$

可以递推地求得前向概率 $\alpha_t(i)$ 及观测序列 $P(O|\lambda)$ 。

算法：观测序列的前向算法

输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ;

输出：观测序列概率 $P(O|\lambda)$

(1)初值，表示初始时刻的状态 $i_1=q_i$ 和观测 $o_1$ 的联合概率
$\alpha_1(i)=\pi_ib_i(o_i)$
(2)递推，对 $t = 1, 2, . . ., T - 1$ ，计算到时刻 $t + 1$ 部分观测序列为 $o_1,o_2,...,o_t,o_{t+1}$ 且在时刻 $t + 1$ 处于状态 $q_i$ 的前向概率。

$\alpha_t(j)$ 是到时刻 $t$ 观察到 $o_1,...,o_t$ 并在时刻 $t$ 处于状态 $q_j$ 的前向概率
$\alpha_t(j)a_{ji}$ 是到时刻 $t$ 观察到 $o_1,...,o_t$ 并在时刻 $t$ 处于状态 $q_j$ 的前向概率而在时刻 $t + 1$ 到达状态 $q_i$ 的联合概率
$\sum_{j=1}^N\alpha_t(j)a_{ji}]b_i(o_{t+1})$ 即时刻 $t + 1$ 观测到 $o_1,...,o_{t+1}$ 并在时刻 $t + 1$ 处于状态 $q_i$ 的前向概率 $\alpha_{t+1}(i)$

$\begin{aligned} \alpha_{t+1}&=[\sum_{j=1}^N\alpha_t(j)a_{ji}]b_i(o_{t+1}) \\ &=[\alpha_t(1)a_{1i}+\alpha_t(2)a_{2i}+...+\alpha_t(N)a_{Ni}]b_i(o_{t+1}) \\ \end{aligned}$

(3)终止
$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)$

例2 考虑盒子和球模型 $\lambda=(A,B,\pi)$ ，状态集合 $Q=\{1,2,3\}$ ，观测集合 $V=\{Red,White\}$
$\begin{aligned} A=\begin{bmatrix} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5 \\ \end{bmatrix}, B=\begin{bmatrix} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \\ \end{bmatrix}, \pi=\begin{bmatrix} 0.2 \\ 0.4 \\ 0.4 \\ \end{bmatrix} \end{aligned}$
设 $T = 3$ ， $O = (R e d, W h i t e, W h i t e)$ ，试用前向算法计算 $P(O|\lambda)$

简单理解一下这三个矩阵的含义， $A$ 表示转移概率，一共有三个状态，因此分别对应三个状态转移到三个状态的概率，因此一共有9种可能， $B$ 矩阵表示观测概率，一共有两个观测状态，白球和红球，也就是每一行表示从当前状态 $1$ 下，观测到红球和白球的概率分别为 $0.5 和 0.5$ ，一共有三个状态，因此共有6个元素，而 $\pi$ 表示状态概率向量，分别表示处于状态 $1, 2, 3$ 的概率，共有3个元素。

(1)计算初值
$\alpha_1(1)=\pi_1b_1(o_1)=0.2 \times 0.5=0.1 \\ \alpha_1(2)=\pi_2b_2(o_1)=0.4 \times 0.4=0.16 \\ \alpha_1(3)=\pi_3b_3(o_1)=0.4 \times 0.7=0.28 \\（2）$
(2)递推计算
$\alpha_2(1)=[\sum_{i=1}^3\alpha_1(i)a_{i1}]b_1(o_{2})=0.1\times 0.5+0.16\times 0.3+0.28\times 0.2=0.154\times 0.5=0.077 \\ \alpha_2(2)=[\sum_{i=1}^3\alpha_1(i)a_{i1}]b_1(o_{2}) =0.1104\\ \alpha_2(3)=[\sum_{i=1}^3\alpha_1(i)a_{i1}]b_1(o_{2})=0.0606 \\ \alpha_3(1)=[\sum_{i=1}^3\alpha_2(i)a_{i1}]b_1(o_{3})=0.04187 \\ \alpha_3(2)=[\sum_{i=1}^3\alpha_2(i)a_{i1}]b_1(o_{3}) =0.03551\\ \alpha_3(3)=[\sum_{i=1}^3\alpha_2(i)a_{i1}]b_1(o_{3})=0.05284 \\$
(3)终止
$P(O|\lambda)=\sum_{i=1}^3\alpha_3(i)=0.13022$