机器学习--概率图算法--条件随机场_机器学习有多少个团怎么算-CSDN博客

本文链接：https://blog.csdn.net/weixin_35733800/article/details/105800763

本文深入探讨了概率无向图的概念，包括成对、局部和全局马尔科夫性，并详细介绍了条件随机场，特别是线性链条件随机场。阐述了条件随机场的参数化形式，概率计算中的前向-后向算法，以及学习问题中的迭代尺度法。此外，还讲解了Viterbi算法在预测问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2 概率无向图的成对、局部、全局马尔科夫性

二条件随机场的概念与参数化形式（重点介绍线性链条件随机场）

2 线性链条件随机场的概念（处理标注问题）

1）大前提

2）小前提

3）结论

3 线性链条件随机场的参数化形式（条件随机场完全由特征函数与特征函数权值确定）

1）前向算法（对每个指标，定义前向向量，维度为m）

2）后向算法（对每个指标，定义前向向量，维度为m）

一概率无向图

1 概率无向图的概念（三段式描述）

1）大前提

联合概率分布 p(Y) ，由无向图 G(V,E) 表示

注意：

：表示多维随机变量
：表示无向图中的结点（随机变量）
：表示无向图中的边（随机变量之间的依赖关系）

2）小前提

联合概率分布 p(Y) ，满足成对马尔可夫性、局部马尔可夫性、全局马尔可夫性

3）结论

联合概率分布 p(Y) ，称为概率无向图（或者称为马尔可夫随机场/马尔可夫网络）

2 概率无向图的成对、局部、全局马尔科夫性

1）成对马尔可夫性（条件独立）

设是无向图中任意两个没有边连接的结点，其中结点分别对应随机变量 $Y_{u},Y_{v}$
设是无向图中除外所有的结点，其中对应随机变量 $Y_{o}$
满足： $p(Y_{u},Y_{v}|Y_{O})=p(Y_{u}|Y_{O})p(Y_{v}|Y_{O}),u\neq v$

2）局部马尔可夫性（条件独立）

设是无向图中任意一个结点，其中结点分别对应随机变量 $Y_{v}$
设是与有边连接的所有的结点，其中对应随机变量 $Y_{W}$
设是无向图中除外所有的结点，其中对应随机变量 $Y_{O}$
满足： $p(Y_{v},Y_{O}|Y_{W})=p(Y_{v}|Y_{W})p(Y_{O}|Y_{W})$

3）全局马尔可夫性（条件独立）

设节点集合是在无向图中被节点集合C分开的任意节点集合，其中分别对应随机变量 $Y_{A},Y_{B},Y_{C}$
满足： $p(Y_{A},Y_{B}|Y_{C})=p(Y_{A}|Y_{C})p(Y_{B}|Y_{C})$

3 概率无向图的因子分解

1）团与最大团

团：是指无向图中的结点子集，要求子集中任意两个结点都有边连接
最大团：是指存在团，无法添加进去任意一个结点进去

2）因子分解

第一点：因子分解的概念

概率无向图中随机变量的联合分布表示为其最大团上的随机变量的函数的乘积形式

第二点：公式

$p(Y)=\frac{1}{Z}\prod_{C}\Psi _{C}(Y_{C}),Z=\sum_{Y}\prod_{C}\Psi_{C}(Y_{C})$

注意：

：表示对应的随机变量
：表示规范化因子
：表示最大团
$Y_{C}$ ：表示最大团对应的随机变量
$\Psi$ ：表示势函数（严格正函数）

第三点：公式的扩展

$\Psi_{C}(Y_{C})=e^{-E(Y_{C})}$

二条件随机场的概念与参数化形式（重点介绍线性链条件随机场）

1 条件随机场的概念（三段式）

1）大前提

设，是随机变量， p(Y|X) 是给定条件下的条件概率

2）小前提

设随机变量构成一个由无向图 G(V,E) 表示的马尔可夫随机场，即满足： $p(Y_{v}|X,Y_{w},w\neq v)=p(Y_{v}|X,Y_{w},w\sim v)$

注意：

：表示任意一个结点
$w(w\neq v)$ ：表示除结点外的所有结点
$w(w\sim v)$ ：表示与结点有边连接的所有结点

3）结论

称条件分布 p(Y|X) 为条件随机场

注意：条件随机场本质上给定条件下的马尔可夫随机场

2 线性链条件随机场的概念（处理标注问题）

1）大前提

设 $X=(X_{1},X_{2},...,X_{n})$ ， $Y=(Y_{1},Y_{2},...,Y_{n})$ 为线性链表示的随机变量序列

p(Y|X) 是给定随机变量序列条件下随机变量序列的条件概率

2）小前提

设随机变量序列构成一个由无向图 G(V,E) 表示的马尔可夫随机场

即满足： $p(Y_{i}|X,Y_{1},...,Y_{i-1},Y_{i+1},...,Y_{n})=p(Y_{i}|X,Y_{i-1},Y_{i+1}),i=1,2,...,n$

注意：或者仅考虑单边

3）结论

称条件分布 p(Y|X) 为线性链条件随机场

3 线性链条件随机场的参数化形式（条件随机场完全由特征函数与特征函数权值确定）

$p(y|x)=\frac{1}{Z(x)}exp\left ( \sum_{k}\sum_{i}\lambda_{k}t_{k}(y_{i-1},y_{i},x,i) +\sum_{l}\sum_{i}\mu _{l}s_{l}(y_{i},x,i)\right )$

$\Rightarrow p(y|x)=\frac{1}{Z(x)}exp\left ( \sum_{k,i}\lambda_{k}t_{k}(y_{i-1},y_{i},x,i) +\sum_{l,i}\mu _{l}s_{l}(y_{i},x,i)\right ),$ $Z(x)=\sum_{y}exp\left ( \sum_{k,i}\lambda_{k}t_{k}(y_{i-1},y_{i},x,i) +\sum_{l,i}\mu _{l}s_{l}(y_{i},x,i)\right )$

注意：

：表示随机变量对应的取值
：表示随机变量对应的取值
：表示规范化因子
$t_{k}$ ：表示转移特征函数，满足转移特征条件取1，不满足取0
$s_{l}$ ：表示状态特征函数，满足状态特征条件取1，不满足取0
$\lambda_{k}$ ：表示转移特征函数的权值
$\mu_{l}$ ：表示状态特征函数的权值

4 线性链条件随机场的简化形式

第一步：将转移特征函数与状态特征函数使用统一符号表示

$f_{k}(y_{i-1},y_{i},x,i)=\left\{\begin{matrix} t_{k}(y_{i-1},y_{i},x,i),k=1,2,...,K_{1}\\s_{l}(y_{i},x,i) ,k=K_{1}+l,l=1,2,...,K_{2} \end{matrix}\right.,k=1,2...,K$

$\Rightarrow (f_{1}(y_{i-1},y_{i},x,i),f_{2}(y_{i-1},y_{i},x,i),...,f_{K}(y_{i-1},y_{i},x,i))=(t_{1},t_{2},...,t_{K_{1}},s_{1},s_{2},...,s_{K_{2}})$

注意： $K=K_{1}+K_{2}$

第二步：对转移特征函数与状态特征函数在各个位置求和

$f_{k}(y,x)=\sum_{i=1}^{n}f_{k}(y_{i-1},y_{i},x,i),k=1,2,...,K$

$\Rightarrow (f_{1}(x,y),f_{2}(x,y),...,f_{K}(x,y))=(\sum_{i}f_{1}(y_{i-1},y_{i},x,i),\sum_{i}f_{2}(y_{i-1},y_{i},x,i),...,\sum_{i}f_{K}(y_{i-1},y_{i},x,i))$

注意： $K=K_{1}+K_{2}$

第三步：将转移特征函数的权值与状态特征函数的权值使用统一符号表示

$w_{k}=\left\{\begin{matrix} \lambda_{k},k=1,2,...,K_{1}\\\mu _{l} ,k=K_{1}+l,l=1,2,...,K_{2} \end{matrix}\right.,k=1,2,...,K$

$\Rightarrow (w_{1},w_{2},...,w_{K})=(\lambda_{1},...,\lambda_{K_{1}},\mu_{1},...,\mu_{K_{2}})$

注意： $K=K_{1}+K_{2}$

第四步：线性链条件随机场的简化形式

$p(y|x)=\frac{1}{Z(x)}exp\left ( \sum_{k=1}^{K}w_{k}f_{k}(y,x) \right ),Z(x)=\sum_{y}exp\left ( \sum_{k=1}^{K}w_{k}f_{k}(y,x) \right )$

注意：令 $F(y,x)=(f_{1}(y,x),f_{2}(y,x),...,f_{K}(y,x)),w=(w_{1},w_{2},...,w_{K})$

$\Rightarrow p(y|x)=\frac{1}{Z(x)}exp\left ( w*F(y,x) \right ),Z(x)=\sum_{y}exp\left ( w*F(y,x) \right )$

5 线性链条件随机场的矩阵形式

第一步：对观测序列的每一个位置，定义一个m阶矩阵（m是随机变量的取值个数）

$M_{i}(x)=[M_{i}(y_{i-1},y_{i}|x)]$

$\Rightarrow M_{i}(y_{i-1},y_{i}|x)=exp\left ( W_{i}(y_{i-1},y_{i}|x) \right )$

$\Rightarrow W_{i}(y_{i-1},y_{i}|x)=\sum_{k=1}^{K}w_{k}f_{k}(y_{i-1},y_{i},x,i)$

注意：我们这里引进特殊的起点和终点标记状态 $y_{0}=start,y_{n+1}=stop$

第二步：非规范化的条件概率通过对n+1个矩阵适当元素的乘积表示

$p(y|x)\propto \prod_{i=1}^{n+1}M_{i}(y_{i-1},y_{i}|x)$

第三步：规范化的条件概率

$p(y|x)=\frac{1}{Z(x)} \prod_{i=1}^{n+1}M_{i}(y_{i-1},y_{i}|x),Z(x)=(M_{1}(x)M_{2}(x)...M_{n+1}(x))_{start,stop}$

注意：理解

表示以start为起点stop为终点通过状态的所有路径 $y_{1},y_{2},...,y_{n}$ 的非规范化概率 $\prod_{i=1}^{n+1}M_{i}(y_{i-1},y_{i}|x)$ 之和

三条件随机场的概率计算问题

1 概率计算问题描述

给定条件随机场 p(Y|X) ，以及输入序列和输出序列，计算 $p(Y_{i}=y_{i}|x)$ 以及 $p(Y_{i-1}=y_{i-1},Y_{i}=y_{i}|x)$

2 前向-后向算法

1）前向算法（对每个指标，定义前向向量 $\alpha _{i}(x)$ ，维度为m）

第一步： $\alpha _{0}(x)$

$\alpha _{0}(y_{0}|x)=\left\{\begin{matrix} 1,y=start\\0,otherwise \end{matrix}\right.$

第二步： $\alpha _{i}(x),i=1,2,...,n+1$

$\alpha _{i}(y_{i}|x)=\alpha _{i-1}(y_{i-1}|x)[M_{i}(y_{i-1},y_{i}|x)],i=1,2,...,n,n+1$

$\Rightarrow \alpha _{i}(y_{i}|x)=\alpha _{i-1}(x)M_{i}(x),i=1,2,...,n,n+1$

2）后向算法（对每个指标，定义前向向量 $\beta _{i}(x)$ ，维度为m）

第一步： $\beta _{n+1}(x)$

$\beta _{n+1}(y_{n+1}|x)=\left\{\begin{matrix} 1,y=stop\\0,otherwise \end{matrix}\right.$

第二步： $\beta _{i}(x),i=0,2,...,n$

$\beta _{i}(y_{i}|x)=[M_{i}(y_{i},y_{i+1}|x)]\beta _{i+1}(y_{i+1}|x),i=0,2,...,n$

$\Rightarrow \beta _{i}(y_{i}|x)=M_{i+1}\beta _{i+1}(x),i=0,2,...,n$

3）概率计算

$p(Y_{i}=y_{i}|x)=\frac{\alpha ^{T}_{i}(x)\beta _{i}(x)}{Z(x)}=\frac{\alpha ^{T}_{i}(y_{i}|x)\beta _{i}(y_{i}|x)}{Z(x)}$

$p(Y_{i-1}=y_{i-1},Y_{i}=y_{i}|x)=\frac{\alpha _{i-1}^{T}(x)M_{i}(x)\beta _{i+1}(x)}{Z(x)}=\frac{\alpha _{i-1}^{T}(y_{i-1}|x)[M_{i}(y_{i-1},y_{i}|x)]\beta _{i+1}(y_{i}|x)}{Z(x)}$