机器学习白板推导（2）

最新推荐文章于 2023-07-29 14:09:01 发布

cztAI

最新推荐文章于 2023-07-29 14:09:01 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/czt_666/article/details/107897354

版权

机器学习白板推导（1）

文章目录

八、概率图模型
九、EM算法
十、高斯混合模型
十一、变分推断

八、概率图模型

4.Bayesian Network-具体模型

$\ Network\begin{cases} \ \ 单一：Naive \ Nayes\longrightarrow P(x \mid y)=\prod_{i=1}^{p}p(x_i\mid y=1)\\ \left.\begin{array}{l} 混合：GMM\\ 时间： \begin{cases} Markov \ Chain\\ Guassian \ Process(无限维高斯分布) \end{cases} \end{array}\right\}动态模型\\ \ \ 连续：Guassian \ Bayesian \ Network \end{cases}$

$\begin{cases} HMM(离散状态)\\ LDS(Kalman\ Filter,)(连续，线性)\\ Paritce \ Filter \end{cases}$

Naive Nayes
tail to tail

GMM
$z$ 是离散的

5.马尔可夫随机场-Representation-条件独立性

有向图的局部结构head to head ，默认是独立的，观测反而不独立

马尔可夫随机场是无向图，则没有head to head 的困扰

条件独立性体现在三个方面：

Global Markov全局马尔可夫
$X_A \bot X_C \mid X_B$
Local Markov局部马尔可夫
$a\bot \left \{ e,f \right \} \mid \left \{ b,c,d \right \}$
成对Markov
$x_i \bot x_j \mid x_{-i},x_{-j}(i\ne j,i,j)$ 不相邻

三个是等价的

引入团的概念

团：一个关于节点的集合，集合的节点之间都是连通（两两）

$\begin{aligned} P(x) &=\frac{1}{Z} \prod_{i=1}^{K} \varphi (x_{C_i}) \\ Z&=\sum_x \prod_{i=1}^{K} \varphi (x_{C_i})\\ &=\sum_{x_1}\sum_{x_2}\cdots \sum_{x_p} \prod_{i=1}^{K} \varphi (x_{C_i}) \end{aligned}$
$C_i$ : 最大团
$x_{C_i}$ : 最大团随机变量集合
$\varphi(x_{C_i})$ : 势函数，必须为正

6.马尔可夫随机场-Representation-因子分解

Hammesley-Clifford 定理可以证明因子分解（基于最大团）与条件独立性等价
$\varphi (x_{C_i})=\exp \left \{ -E(x_{C_i}) \right \} >0$ $E(x_{C_i})$ 为能量函数
$P (x)$ 称为Gibbs分布
$\begin{aligned} P(x) &=\frac{1}{Z} \prod_{i=1}^{K} \varphi (x_{C_i}) \\ &=\frac{1}{Z} \prod_{i=1}^{K} \exp \left \{ -E(x_{C_i}) \right \}\\ &=\frac{1}{Z} \exp \left \{ -\sum_{i=1}^K E(x_{C_i}) \right \} \end{aligned}$ 指数族分布

最大熵原理 $\Rightarrow$ 指数族分布(Gibbs分布)

Markov Random Field $\Leftrightarrow$ Gibbs Distribution

7.推断-总体介绍

$P(x)=P(x_1,x_2,\cdots,x_p)$

推断-求概率

边缘概率 $P(x_i)=\sum_{x_1}\cdots \sum_{x_{i-1}} \sum_{x_{i+1}}\cdots \sum_{x_p}P(x)$
条件概率 $P(x_A \mid x_B) \quad ,x=x_A \cup x_B$
MAP Inference: $\hat z = \arg \max_z P(z \mid x) \propto \arg \max_z P(x,z)$

$\begin{cases} 精确推断 \begin{cases} Variable \ Elimanation(VE)\\ Belief \ Propagtion(BP)\longrightarrow Sum \ Product \ Algorithm\\ Junction \ Tree \ Algorithm \end{cases}\\ 近似推断 \begin{cases} Loop \ Belief \ Propagation\\ Mente \ Carlo \ Inference：Importance \ Sampling,MCMC\\ Variational \ Inference \end{cases} \end{cases}$

8.推断-Variable Elimination

求边缘概率
假设a,b,c,d均是离散的二值r.v，a,b,c,d $\in \left \{ 0,1 \right \}$

$P(d)=\sum_{a,b,c} P(a)P(b)P(c)P(d)\\ =\sum_{a,b,c} P(a)P(b \mid a)P(c \mid b)P(d \mid c)$
逐一带入计算，P(d)计算量为 $2^3$ ，，随机变量取 $K$ 种 $p$ 维，计算量为幂指函数 $K^p$ ，显然不可取。

$\begin{aligned} P(d)&=\sum_{a,b,c} P(a)P(b \mid a)P(c \mid b)P(d \mid c)\\ &=\sum_{b,c} P(c \mid b)P(d \mid c) \sum_{a} P(a)P(b \mid a)\\ &=\sum_{c} P(d \mid c) P(c \mid b) \sum_{b}\phi_a(b)\\ &=\sum_{c} P(d \mid c) \phi_b(c)\\ &=\phi_c(d)\\ P(x)&=\prod_{x_c} \varphi_c(x_c) \end{aligned}$ 乘法分配率

缺点：重复计算（下节的内容），消除的次序

最大团：不可再添加节点，使得团内节点兩两两连接，团之间的联系非常小，可以认为是相互独立的

9.推断-Variable Elimination to Blief Propagation

$P(e)=\sum_{d} p(e \mid d) \sum_{c}P(d \mid c) \sum_{b} P(c \mid b)\sum_{a} P(b \mid a) P(a)$
同理
$\left ( \sum_{b} P(c \mid b)\sum_{a} P(b \mid a) P(a) \right ) \left ( \sum_{d} p(d \mid c) \sum_{e}P(e \mid d) \right )$
如何计算万 $P (e)$ ，又要计算 $P (c)$ ，等式有公因子，如果再计算其他任务就会造成重复计算。

Chain链式 to Tree树结构（如计算 $P (c)$ ，前向-反向算法）
有向 to 无向
在这里插入图片描述

联合概率
$P(a,b,c,d)=\frac{1}{Z} \varphi_a(a) \varphi_b(b) \varphi_c(c) \varphi_d(d) \varphi_ab(ab)\varphi_bc(bc) \varphi_bd(bd)$
求边缘概率
$P(a)=\sum_{b,c,d}P(a,b,c,d)$
$\begin{cases} \varphi_a\\ m_{b \to a}(a) \begin{cases} \sum_b \\ m_{c \to b}(b) \begin{cases} \sum_c \varphi_c \varphi_{bc} \end{cases}\\ \varphi_b\\ m_{c \to b}(b) \begin{cases} \sum_d \varphi_d \varphi_{bd} \end{cases}\\ \varphi_{ab} \end{cases} \end{cases}$

$\begin{cases} m_{b \to a}(x_a)=\sum_{x_b}\varphi_{ab}\varphi_b m_{c \to b}(x_b)m_{c \to b}(x_b)\\\\ P(x_a)=\varphi_am_{b \to a}(x_a) \end{cases}$
$\begin{cases} m_{j \to i}(x_i)=\sum_{x_j}\varphi_{ij}\varphi_j \prod_{k \in NB(j)-i} m_{k \to j}(x_j)\\\\ P(x_i)=\varphi_i \prod_{k \in NB(i)} m_{k \to i}(x_i) \end{cases}$
$N B (j) - i, j$ 的邻节点除了 $i$ 节点

不要直接求边缘概率，只需求 $m_{i \to j}$

10.推断-Blief Propagation

$\begin{cases} beilef(b)=\varphi_b \ child \\\\ m_{b \to a}=\sum_b \varphi_{ab} \ belief(b) \end{cases}$

BP = VE + Caching
直接求 $m_{ij}$
图的遍历

Get root, assume is root
Collect Message

for x_i in NB(Root):
	collect(x_i)

Distribution Message

for x_j  in NB(Root):
	distribute(x_j)

可以并行运算

11.Max Product

$\begin{cases} m_{j \to i}(x_i)=\sum_{x_j}\varphi_{ij}\varphi_j \prod_{k \in NB(j)-i} m_{k \to j}(x_j)\\\\ P(x_i)=\varphi_i \prod_{k \in NB(i)} m_{k \to i}(x_i) \end{cases}$

将Sum Product $\sum$ 符改为Max Product $\max$

BP的改进
Viterbi的推广

路径最优，每层的每一个节点都有累积最短路径
$\begin{aligned} m_{j \to i}&=\max_{x_j} \varphi_j \cdot \varphi_{ij} \prod_{k \in NB(j)-1} m_{k \to j}\\ m_{c \to b}&=\max_{x_c} \varphi_c \cdot \varphi_{bc}\\ m_{d \to b}&=\max_{x_d} \varphi_d \cdot \varphi_{bd}\\ m_{b \to a}&=\max_{x_b} \varphi_b \cdot \varphi_{ab} m_{c \to b} m_{d \to b} \end{aligned}$

最低0.47元/天解锁文章

cztAI

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习白板推导（2）

4.Bayesian Network-具体模型Bayesian Network{  单一：Naive Nayes⟶P(x∣y)=∏i=1pp(xi∣y=1)混合：GMM时间：{Markov ChainGuassian Process(无限维高斯分布)}动态模型  连续：Guassian Bayesian NetworkBayesian \ Network\begin{cases}\ \ 单一：Naive
复制链接

扫一扫