（十）统计学习方法 | 条件随机场

最新推荐文章于 2022-04-29 19:16:48 发布

zhangts20

最新推荐文章于 2022-04-29 19:16:48 发布

阅读量393

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/Skies_/article/details/109667099

版权

统计学习方法专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

1. 概率无向图模型
- 1.1 简介与定义
- 1.2 概率无向图模型的因子分解
2. 条件随机场
3. 条件随机场的概率计算问题
4. 条件随机场的学习算法
- 4.1 改进的迭代尺度法
- 4.2 拟牛顿法
5. 条件随机场的预测算法
6. 条件随机场总结
参考

1. 概率无向图模型

1.1 简介与定义

概率无向图模型又称马尔可夫随机场，是一个可以由无向图表示的联合概率分布。图是由结点及连接结点的边组成的集合。结点和边分别记作 $v$ 和 $e$ ，结点和边的集合分别记作 $V$ 和 $E$ ，图记作 $G = (V, E)$ 。

概率图模型是由图表示的概率分布。设有联合概率分布 $P (Y)$ ， $Y\in \mathcal Y$ 是一组随机变量。由无向图 $G = (V, E)$ 表示概率分布 $P (Y)$ ，即在图 $G$ 中，结点 $v\in V$ 表示一个随机变量 $Y_c$ ， $Y=(Y_v)_{v\in V}$ ；边 $e\in E$ 表示随机变量之间的概率依赖关系。

给定一个联合概率分布 $P (Y)$ 和表示它的无向图 $G$ 。首先定义无向图表示的随机变量之间存在的成对马尔可夫性、局部马尔可夫性和全局马尔可夫性。

成对马尔可夫性 设 $u$ 和 $v$ 是无向图 $G$ 中任意两个没有边连接的点，结点 $u$ 和 $v$ 分别对应随机变量 $Y_u$ 和 $Y_v$ 。其他所有结点为 $O$ ，对应的随机变量组为 $Y_O$ 。成对马尔可夫性是指给定随机变量 $Y_O$ 的条件下随机变量 $Y_u$ 和 $Y_v$ 是条件独立的，即： $P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)\tag{1}$

局部马尔可夫性 设 $v\in V$ 是无向图 $G$ 中的任意一个结点， $W$ 是与 $v$ 有边连接的所有结点， $O$ 是 $v$ 和 $W$ 以外的其他所有结点。 $v$ 表示的随机变量是 $Y_v$ ， $W$ 表示的随机变量是 $Y_W$ ， $O$ 表示的随机变量是 $Y_O$ 。局部马尔可夫性是指在给定随机变量组 $Y_W$ 的条件下随机变量 $Y_v$ 与随机变量组 $Y_O$ 是独立的，即： $P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)\tag{2}$

全局马尔可夫性 设结点集合 $A, B$ 是在无向图 $G$ 中被结点集合 $C$ 分开的任意结点集合，结点集合 $A, B$ 和 $C$ 对应的随机变量组分别为 $Y_A,Y_B$ 和 $Y_C$ 。全局马尔可夫性是指给定随机变量组 $Y_C$ 条件下随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的，即： $P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_W)\tag{3}$

概率无向图模型 设有联合概率分布 $P (Y)$ ，由无向图 $G = (V, E)$ 表示，在图 $G$ 中，结点表示随机变量，边表示随机变量之间的依赖关系。如何联合概率分布 $P (Y)$ 满足成对、局部或全局马尔可夫性，则称此联合概率分布为概率无向图模型，或马尔可夫随机场。

1.2 概率无向图模型的因子分解

团与最大团 无向图 $G$ 中任何两个结点均有边连接的结点子集称为团。如 $C$ 是无向图 $G$ 中的一个团，并且不能再加进任何一个 $G$ 的结点使其成为一个更大的团，则称此 $C$ 为最大团。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，成为概率无向图模型的因子分解。

给定概率无向图模型，设其无向图为 $G$ ， $C$ 为 $G$ 上的最大团， $Y_C$ 表示 $C$ 对应的随机变量。那么概率无向图模型的联合概率分布 $P (Y)$ 可写作图中所有最大团 $C$ 上的函数 $\Psi_C(Y_C)$ 的乘积形式，即： $P(Y)=\frac{1}{Z}\prod_C\Psi_C(Y_C)\tag{4}$

其中， $Z$ 是规范化因子，即： $Z=\sum_Y\prod_C\Psi_C(Y_C)\tag{5}$

规范化因子保证 $P (Y)$ 构成一个概率分布。函数 $\Psi_C(Y_C)$ 成为势函数，其是严格正的，通常定义为指数函数： $\Psi_C(Y_C)=\exp\{-E(Y_C)\}\tag{6}$

概率无向图模型的因子分解由下述定理来保证。

Hammersley-Clifford定理 概率无向图模型的联合概率分布 $P (Y)$ 可以表示为如下形式： $P(Y)=\frac{1}{Z}\prod_C\Psi_C(Y_C)$

$Z=\sum_Y\prod_C\Psi_C(Y_C)$

其中， $C$ 是无向图的最大团， $Y_C$ 是 $C$ 的结点对应的随机变量， $\Psi_C(Y_C)$ 是 $C$ 上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

2. 条件随机场

2.1 简介与定义

条件随机场是在给定随机变量 $X$ 的条件下，随机变量 $Y$ 的马尔可夫随机场。在条件概率 $P (Y ∣ X)$ 中， $Y$ 是输出变量，表示标记序列； $X$ 是输入变量，表示需要标注的观测序列。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat P(Y|X)$ ；预测时，对于给定的输入序列 $x$ ，求出条件概率 $\hat P(y|x)$ 最大的输出序列 $\hat y$ 。

条件随机场 设 $X$ 和 $Y$ 是随机变量， $P (Y ∣ X)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个无向图 $G = (V, E)$ 表示的马尔可夫随机场，即： $P(Y_v|X,Y_w,w\not =v)=P(Y_v|X,Y_w,w\sim v)\tag{7}$

对任意结点成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。式中 $w\sim v$ 表示在图 $G = (V, E)$ 中与结点 $v$ 有边连接的所有结点 $w$ ， $w\not =v$ 表示结点 $v$ 以外的所有结点， $Y_v,Y_u$ 和 $Y_w$ 为结点 $v, u$ 和 $w$ 对应的随机变量。

线性链条件随机场 设 $X=(X_1,X_2,...,X_n),Y=(Y_1,Y_2,...,Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性： $P(Y_i|X,Y_1,..,Y_{i-1},Y_{i+1},...,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})\\i=1,2,...,n\tag{8}$

则称 $P (Y ∣ X)$ 为线性链条件随机场。

2.2 条件随机场的参数化形式

线性链条件随机场的参数化形式 设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量 $Y$ 取值为 $y$ 的条件概率具有如下形式： $P(y|x)=\frac{1}{Z(x)}\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)\tag{9}$

其中： $Z(x)=\sum_y\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)\tag{10}$

式中， $t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值。 $Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。其中， $t_k$ 是定义在边上的特征函数，称为转移特征，依赖于当前和前一位置； $s_l$ 是定义在结点上的特征函数，称为状态特征，依赖于当前位置。通常，特征函数 $t_k$ 和 $s_l$ 的取值遵循满足特征条件为 $1$ 否则为 $0$ 的规则。

例设有一标注问题：输入观测序列为 $X=(X_1,X_2,X_3)$ ，输出标记序列为 $Y=(Y_1,Y_2,Y_3)$ ， $Y_1,Y_2,Y_3$ 的取值于 $\mathcal Y=\{1,2\}$ 。假设特征 $t_k,s_l$ 和对应的权值 $\lambda_k,\mu_l$ 如下： $t_1=t_1(y_{i-1}=1,y_i=2,x,i),\ \ \ i=2,3,\ \ \ \lambda_1=1$

$\begin{aligned} & t_2=t_2(y_1=1,y_2=1,x,2) && \lambda_2=0.6 \\ & t_3=t_3(y_2=2,y_3=1,x,3) & & \lambda_3=1\\ & t_4=t_4(y_1=2,y_2=1,x,2),& & \lambda_4=1\\ & t_5=t_5(y_2=2,y_3=2,x,3),& & \lambda_5=0.2 \\ & s_1=s_1(y_1=1,x,1),& & \mu_1=1 \\ & s_2=s_2(y_i=2,x,i),i=1,2& & \mu_2=0.5 \\ & s_3=s_3(y_i=1,x,i),i=2,3& & \mu_3=0.8 \\ & s_4=s_4(y_3=2,x,3),& & \mu_4=0.5 \end{aligned}$

求给定的观测序列 $x$ ，求标记序列为 $y=(y_1,y_2,y_3)=(1,2,2)$ 的非规范化条件概率。

解由式（9），线性链条件随机场模型为： $p(y|x)\propto\exp\left[\sum_{k=1}^5\lambda_k\sum_{i=2}^3t_k(y_{i=1},y_i,x,i)+\sum_{k=1}^4\mu_k\sum_{i=1}^3s_k(y_i,x,i)\right]$

对给定的观测序列 $x$ ，标记序列 $y = ((1, 2, 2)$ 的非规范化条件概率为： $P(y_1=1,y_2=2,y_3=2)\propto \exp(3.2)$

2.3 条件随机场的简化形式

首先将转移特征和状态特征及其权值用统一的符号表示。设有 $K_1$ 个转移特征， $K_2$ 个状态特征， $K=K_1+K_2$ ，记： $f_k(y_{i-1},y_i,x,i)=\left\{ \begin{aligned} & t_k(y_{i-1},y_i,x,i) & & k=1,2,...,K_1 \\ & s_l(y_i,x,i) & & k=K_1+l;\ l=1,2,...,K_2\tag{11} \end{aligned} \right.$

然后，对转移与状态特征在各个位置 $i$ 求和，记作： $f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i),\ \ \ \ k=1,2,...,K\tag{12}$

用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即： $w_k=\left\{ \begin{aligned} & \lambda_k, & & k=1,2,...,K_1 \\ & \mu_l, & & k=K_1+l;\ l=1,2,...,K_2\tag{13} \end{aligned} \right.$

于是，条件随机场可以表示为： $P(y|x)=\frac{1}{Z(x)}\exp\sum_{k=1}^Kw_kf_k(y,x)\tag{14}$

$Z(x)=\sum_y\exp\sum_{k=1}^Kw_kf_k(y,x)\tag{15}$

2.4 条件随机场的矩阵形式

假设 $P_w(y|x)$ 是由式（14）和（15）给出的线性链条件随机场，表示对给定观测序列 $x$ ，相应的标记序列 $y$ 的条件概率。对每个标记序列引起特殊的起点和终点状态标记 $y_0={\rm start}$ 和 $y_{n+1}={\rm stop}$ ，这是标注序列的概率 $P_w(y|x)$ 可以通过矩阵形式表示并有效计算。

对观测序列 $x$ 的每一个位置 $i = 1, 2, . . ., n + 1$ ，由于 $y_{i-1}$ 和 $y_i$ 在 $m$ 个标记中取值，可以定义一个 $m$ 阶矩阵随机变量： $M_i(x)=[M_i(y_{i-1},y_i|x)]\tag{16}$

矩阵随机变量的元素为： $M_i(y_{i-1},y_i|x)=\exp(W_i(y_{i-1},y_i|x))\tag{17}$

$W_i(y_{i-1},y_i|x)=\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i)\tag{18}$

各变量含义前面已经给出。这样，给定观测序列 $x$ ，相应标记序列 $y$ 的非规范化条件概率可以通过该序列 $n + 1$ 各矩阵的适当元素的乘积 $\prod \limits_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示。于是，条件概率 $P_w(y|x)$ 是： $P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)\tag{19}$

其中， $Z_w(x)$ 为规范化因子，是 $n + 1$ 个矩阵的乘积的元素，即： $Z_w(x)=[M_1(x)M_2(x)...M_{n+1}(x)]_{\rm start,stop}\tag{20}$

例给定一个由下图所示的线性链条件随机场，观测序列 $x$ ，状态序列 $y$ ， $i = 1, 2, 3$ ， $n = 3$ ，标记 $y_i\in\{1,2\}$ ，假设 $y_0=\rm start=1$ ， $y_4=\rm stop=1$ ，各个位置的随机矩阵 $M_1(x),M_2(x),M_3(x),M_4(x)$ 分别是： $\begin{gathered} M_1(x)=\begin{bmatrix} a_{01} & a_{02}\\ 0 & 0\\ \end{bmatrix},\ \ \ M_2(x)=\begin{bmatrix} b_{11} & b_{12}\\ b_{21} & b_{22}\\ \end{bmatrix}\\ M_3(x)=\begin{bmatrix} c_{11} & c_{12}\\ c_{21} & c_{22}\\ \end{bmatrix}, \ \ \ M_4(x)=\begin{bmatrix} 1 & 0\\ 1 & 0\\ \end{bmatrix} \end{gathered}$

求状态序列 $y$ 以 $\rm start$ 为起点 $\rm stop$ 为终点所有路径的非规范化概率及规范化因子。

在这里插入图片描述
解首先计算从 $\rm start$ 到 $\rm stop$ 对应于 $y_1=(1,1,1),y=(1,1,2),...,y=(2,2,2)$ 各路径的非规范化概率分别是 $a_{01}b_{11}c_{11},\ \ \ a_{01}b_{11}c_{12}, \ \ \ , a_{01}b_{12}c_{21},\ \ \ a_{01}b_{12}c_{22}$

$a_{02}b_{21}c_{11},\ \ \ a_{02}b_{21}c_{12}, \ \ \ , a_{02}b_{22}c_{21},\ \ \ a_{01}b_{22}c_{22}$

然后根据式（20）求规范化因子。通过计算矩阵乘积 $M_1(x)M_2(x)M_3(x)M_4(x)$ 可知，其第 $1$ 行第 $1$ 列元素为： $a_{01}b_{11}c_{11}+a_{02}b_{21}c_{11}+a_{01}b_{11}c_{12}+a_{02}b_{21}c_{12}+a_{02}b_{22}c_{21}+a_{01}b_{12}c_{21}+a_{01}b_{12}c_{22}+a_{01}b_{22}c_{22}$

恰好等于从 $\rm start$ 到 $\rm stop$ 的所有路径的非规范化概率之和。

3. 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 $P (Y ∣ X)$ ，输入序列 $x$ 和输出序列 $y$ ，计算条件概率 $P(Y_i=y_i|x)$ ， $P(Y_{i-1}=y_{i-1},Y_i=y_i|x)$ 以及相应的数学期望的问题。

3.1 前向-后向算法

对每个指标 $i = 0, 1, . . ., n + 1$ ，定义前向向量 $\alpha_i(y|x)$ ： $\alpha_0(x)=\left\{ \begin{aligned} &1, & & y=\rm start \\ & 0, & & otherwise\tag{21} \end{aligned} \right.$

递推公式为： $\alpha_i^{\rm T}(y_i|x)=\alpha_{i-1}^{\rm T}(y_{i-1}|x)[M_i(y_{i-1},y_i|x)],\ \ \ i=1,2,...,n+1\tag{22}$

$\alpha_i(y_i|x)$ 表示在位置 $i$ 的标记是 $y_i$ 并且从 $1$ 到 $i$ 的前部分标记序列的非规范化概率， $y_i$ 可取的值有 $m$ 个，所以 $\alpha_i(x)$ 是 $m$ 维列向量。同样，对每个指标 $i = 0, 1, . . ., n + 1$ ，定义后向向量 $\beta_i(x)$ ： $\beta_{n+1}(y_{n+1}|x)=\left\{ \begin{aligned} &1, & & y=\rm start \\ & 0, & & otherwise\tag{23} \end{aligned} \right.$

递推公式为： $\beta_i(y_i|x)=[M_{i+1}(y_i,y_{i+1}|x)]\beta_{i+1}(y_{i+1}|x)\tag{24}$

$\beta_i(y_i|x)$ 表示位置 $i$ 的标记为 $y_i$ 并且哦那个 $i + 1$ 到 $n$ 的后部分标记序列的非规范化概率。

3.2 概率计算

按照前向-后向向量的定义，很容易计算标记序列在位置 $i$ 是标记 $y_i$ 的条件概率和在位置 $i - 1$ 与 $i$ 是标记 $y_{i-1}$ 和 $y_i$ 的条件概率： $P(Y_i=y_i|x)=\frac{\alpha_i^{\rm T}(y_i|x)\beta_i(y_i|x)}{Z(x)}\tag{25}$

$P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{\alpha_{i-1}^{\rm T}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\tag{26}$

其中： $Z(x)=\alpha_n^{\rm T}(x)\bold 1=\bold1\beta_1(x)\tag{27}$

$\bold 1$ 是元素均为 $1$ 的 $m$ 维列向量。

3.3 期望值计算

利用前向-后向计算，可以计算特征函数关于联合分布 $P (X, Y)$ 和条件分布 $P (Y ∣ X)$ 的数学期望。特征函数 $f_k$ 关于条件分布的数学期望是： $\begin{aligned} E_{P(Y|X)}[f_k]&=\sum_y P(y|x)f_k(y|x)\\&=\sum_{i=1}^{n+1}\sum_{y_{i-1}y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^{\rm T}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\\&k=1,2,,,.K\end{aligned}\tag{28}$

其中： $Z(x)=\alpha_n^{\rm T}(x)\bold 1$

假设经验分布为 $\tilde P(X)$ ，特征函数 $f_k$ 关于联合分布 $P (X, Y)$ 的数学期望是： $\begin{aligned} E_{P(X,Y)}[f_k]&=\sum_{x,y}P(x,y)\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)\\&=\sum_x\tilde P(x)\sum_yP(y|x)\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)\\&=\sum_x\tilde P(x)\sum_{i=1}^{n+1}\sum_{y_{i-1}y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^{\rm T}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\\&k=1,2,,,.K\end{aligned}\tag{29}$

其中： $Z(x)=\alpha_n^{\rm T}(x)\bold 1$

4. 条件随机场的学习算法

4.1 改进的迭代尺度法

条件随机场模型学习的改进的迭代尺度法

输入特征函数 $t_1,t_2,...,t_{K_1},s_1,s_2,...,s_{K_2}$ ；经验分布 $P (x, y)$ ；

输出参数估计值 $\hat w$ ；模型 $P_{\hat w}$ 。

（1）对所有 $k\in\{1,2,...,K\}$ ，取初值 $w_k=0$ ；

（2）对每一 $k\in\{1,2,...,K\}$ ：

（2-1）当 $k=1,2,...,K_1$ 时，令 $\delta_k$ 是方程 $\sum_{x,y}\tilde P(x)P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp(\delta_kT(x,y))=E_{\tilde P}[t_k]$

的解；当 $k=K_1+l,\ l=1,2,...,K_2$ 时，令 $\delta_{k+1}$ 是方程 $\sum_{x,y}\tilde P(x)P(y|x)\sum_{i=1}^ns_l(y_i,x,i)\exp(\delta_{K_1+l}T(x,y))=E_{\tilde P}[s_l]$ 的解；

式中 $T (x, y)$ 为： $T(x,y)=\sum_kf_k(y,x)=\sum_{k=1}^K\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)$

（2-2）更新 $w_k$ 值： $w_k\leftarrow w_k+\delta_k$ ；

（3）如果不是所有的 $w_k$ 都收敛，重复步骤（2）。

4.2 拟牛顿法

条件随机场模型学习的BFGS算法

输入特征函数 $t_1,t_2,...,t_{K_1},s_1,s_2,...,s_{K_2}$ ；经验分布 $\tilde P(x,y)$ ；

输出参数估计值 $\hat w$ ；模型 $P_{\hat w}(y|x)$ 。

（1）设定初始点 $w^{(0)}$ ，取 $\bold B_0$ 为正定对称正定矩阵，置 $k = 0$ ；

（2）计算 $g_k=g(w^{(k)})$ 。若 $g_k=0$ ，则停止计算；否则转（3）；

（3）由 $B_kp_k=-g_k$ 求出 $p_k$ ；

（4）一维搜索：求 $\lambda_k$ 使得 $f(w^{(k)}+\lambda_kp_k)=\min_{\lambda\geq0}f(w^{(k)}+\lambda p_k)$

（5）置 $w^{(k+1)}=w^{(k)}+\lambda_kp_k$ ；

（6）计算 $g_k=g(w^{(k+1)})$ ，若 $g_{k+1}=0$ ，则停止计算；否则，按下式求出 $B_{k+1}$ ： $B_{k+1}=B_k\frac{y_ky_k^{\rm T}}{y_k^{\rm T}\delta_k}-\frac{B_k\delta_k\delta_k^{\rm T}B_k}{\delta_k^{\rm T}B_k\delta_k}$

其中： $y_k=g_{k+1}-g_k,\ \ \ \delta_k=w^{(k+1)}-w^{(k)}$

（7）置 $k = k + 1$ ，转（3）。

5. 条件随机场的预测算法

条件随机场预测的维特比算法

输入模型特征向量 $F (x, y)$ 和权值向量 $w$ ，观测序列 $x=(x_1,x_2,...,_n)$ ；

输出最优路径 $y^*=(y_1^*,y_2^*,...,y_n^*)$ 。

（1）初始化： $\delta_1(j)=w\cdot F_1(y_0={\rm start},y_1=j,x),\ \ \ j=1,2,...,m$

（2）递推。对 $i = 2, 3, . . ., n$ ： $\delta_i(l)=\max_{1\leq j\leq m}\{\delta_{i-1}(j)+w\cdot F(y_{i-1}=j,y_i=l,x)\},\ \ \ l=1,2,...,m$

$\Psi_i(l)=\arg\max_{1\leq j\leq m}{1\leq j\leq m}\{\delta_{i-1}(j)+w\cdot F(y_{i-1}=j,y_i=l,x)\},\ \ \ l=1,2,...,m$

（3）终止： $\max_y(w\cdot F(y,x))=\max_{1\leq j\leq m}\delta_n(j)$

$y_n^*=\arg\max_{1\leq j\leq m}\delta_n(j)$

（4）返回路径： $y_i^*=\Psi_{i+1}(y_{i+1}^*),\ \ \ i=n-1,n-2,...,1$

求得最优路径 $y^*=(y_1^*,y_2^*,...,y_n^*)$ 。

解例题 用维特比算法求给定的输入序列 $x$ 对应的最优输出序列 $y^*=(y_1^*,y_2^*,...,y_n^*)$ 。

（1）初始化： $\delta_1(j)=w\cdot F_1(y_0={\rm start},y_1=j,x),\ \ \ j=1,2$

$i = 1$ ， $\delta_1(1)=1$ ， $\delta_1(2)=0.5$ 。

（2）递推： $\begin{aligned} i=2\ \ \ & \delta_2(l)=\max_j\{\delta_1(j)+w\cdot F_2(j,l,x)\}\\&\delta_2(1)=\max\{1+\lambda_2t_2+\mu_3s_3,0.5+\lambda_4t_4+\mu_3s_3\}=2.4,\ \ \ \Psi_2(1)=1\\&\delta_2(2)=\max\{1+\lambda_1t_1+\mu_2s_2,0.5+\mu_2s_2\}=2.5,\ \ \ \Psi_2(2)=1 \end{aligned}$

$\begin{aligned} i=3\ \ \ & \delta_2(l)=\max_j\{\delta_2(j)+w\cdot F_4(j,l,x)\}\\&\delta_3(1)=\max\{2.4+\mu_3s_3,2.5+\lambda_3t_3+\mu_3s_3\}=4.3,\ \ \ \Psi_2(1)=2\\&\delta_3(2)=\max\{2.4+\lambda_1t_1+\mu_4s_4,2.5+\lambda_5t_5+\mu_4s_4\}=3.9,\ \ \ \Psi_3(2)=1 \end{aligned}$

（3）终止： $\max_y(w\cdot F(y,x))=\max\delta_3(l)=\delta_3(l)=4.3$

$y_n^*=\arg\max_l\delta_3(j)=1$

（4）返回：
$y_2^*=\Psi_3(y_3^*)=\Psi_3(1)=2$

$y_1^*=\Psi_2(y_2^*)=\Psi_2(2)=1$

最优标记序列： $y^*=(y_1^*,y_2^*,y_3^*)=(1,2,1)$

6. 条件随机场总结

条件随机场是给定输入随机变量 $X$ 条件下，输出随机变量 $Y$ 的条件概率分布模型，其形式为参数化的对数线性模型。线性链条件随机场是定义在观测序列与标记序列上的条件随机场，其一般表示为给定观测序列条件下的标记序列的条件概率分布。线性链条件随机场的概率计算通常利用前向-后向算法，学习方法通常是极大似然估计方法或正则化的极大似然估计，维特比算法是给定观测序列求条件概率最大的标记序列的方法。