机器学习笔记之高斯网络(一)基本介绍

引言

本节将介绍高斯网络

回顾:

条件独立性

概率图模型——背景介绍中介绍了条件独立性,条件独立性的核心思想是:给定某随机变量集合 X A \mathcal X_{\mathcal A} XA的条件下,可能存在随机变量集合 X B , X C \mathcal X_{\mathcal B},\mathcal X_{\mathcal C} XB,XC内部结点之间存在关联,但 X B , X C \mathcal X_{\mathcal B},\mathcal X_{\mathcal C} XB,XC之间不存在关联
X B ⊥ X C ∣ X A \mathcal X_{\mathcal B} \perp \mathcal X_{\mathcal C} \mid \mathcal X_{\mathcal A} XBXCXA
并且 X A , X B , X C \mathcal X_{\mathcal A},\mathcal X_{\mathcal B},\mathcal X_{\mathcal C} XA,XB,XC是三个不相交的特征集合。

概率图模型

概率图模型——背景介绍中介绍了概率图模型(Probabilisitc Graphical Model,PGM)。从图的表示角度观察,它可以分为有向图无向图两种:

  • 基于有向图的概率图模型又称贝叶斯网络(Bayesian Network),也称信念网络(Belief Network)。
    条件独立性的角度观察,贝叶斯网络条件独立性表达包含三种经典情况:

    • 同父结构(Common Parent),对应概率图结构表示如下:
      贝叶斯网络——条件独立性——同父结构
      上图结构表现的现象是:给定结点 i 1 i_1 i1的取值,结点 i 2 , i 3 i_2,i_3 i2,i3条件独立
      i 2 ⊥ i 3 ∣ i 1 i_2 \perp i_3 \mid i_1 i2i3i1
    • 顺序结构(Sequence),对应概率图结构表示如下:
      贝叶斯网络——条件独立性——顺序结构
      上图结构表现的现象是:给定结点 i 2 i_2 i2的取值,结点 i 1 , i 3 i_1,i_3 i1,i3相互独立
      i 1 ⊥ i 3 ∣ i 2 i_1 \perp i_3 \mid i_2 i1i3i2
    • V \mathcal V V型结构(V-Structure),对应概率图结构表示如下:
      贝叶斯网络——条件独立性——V型结构
      该结构表现的现象是:给定 i 3 i_3 i3结点的条件下, i 1 , i 2 i_1,i_2 i1,i2必不独立;相反, i 3 i_3 i3取值未知的条件下, i 1 , i 2 i_1,i_2 i1,i2相互独立
      i 3 ∣ i 1 ⊥ i 2 i_3 \mid i_1 \perp i_2 i3i1i2
  • 基于无向图的概率图模型又称马尔可夫网络(Markov Network),也称马尔可夫随机场(Markov Random Field)。
    相比于贝叶斯网络马尔可夫随机场描述变量之间的依赖关系 仅包含一种格式:
    马尔可夫随机场——条件独立性
    该结构表现的现象是:给定 i 1 i_1 i1结点的条件下,结点 i 2 , i 3 i_2,i_3 i2,i3相互独立
    i 2 ⊥ i 3 ∣ i 1 i_2 \perp i_3 \mid i_1 i2i3i1

高斯网络

高斯网络介绍

高斯网络(Gaussian Network),又称高斯概率图模型(Gaussian Probabilistic Graphical Model)。它同样也是一种概率图模型
随机变量的类型角度观察,将随机变量分为离散型随机变量核连续型随机变量两种。已经介绍的随机变量是离散型随机变量的有:

  • 高斯混合模型(Gaussian Mixture Model,GMM),其隐变量 Z \mathcal Z Z包含离散的 ∣ K ∣ |\mathcal K| K个取值,每个取值条件下的观测变量服从高斯分布
    P ( X ) = ∑ k = 1 K α k ⋅ N ( μ k , Σ k ) ∑ k = 1 K α k = 1 \mathcal P(\mathcal X) = \sum_{k=1}^{\mathcal K} \alpha_k \cdot \mathcal N(\mu_{k},\Sigma_k) \quad \sum_{k=1}^{\mathcal K} \alpha_k = 1 P(X)=k=1KαkN(μk,Σk)k=1Kαk=1
  • 隐马尔可夫模型(Hidden Markov Model,HMM):隐变量 I \mathcal I I是离散型随机变量,观测变量 O \mathcal O O没有要求
  • 条件随机场(Condition Random Field,CRF):隐变量 I \mathcal I I是离散型随机变量,观测变量 O 1 : T \mathcal O_{1:T} O1:T常以序列形式出现

而高斯网络是随机变量是连续型随机变量 的一种代表模型,其核心思想是:随机变量都是连续型随机变量,并且随机变量服从高斯分布。同上,根据图的表示,高斯网络同样分为有向图无向图两种表达形式:

  • 高斯贝叶斯网络(Gaussian Beyasian Network,GBN)
  • 高斯马尔可夫网络(Gaussian Markov Network,GMN)

高斯网络的条件独立性

假设一个高斯图模型表示如下:
高斯图模型——示例
这只是一个简单的马尔可夫网络,并且每个结点都是一个一维随机变量。这里的随机变量均是连续型随机变量,并且均服从高斯分布
x i ∼ N ( μ i , Σ i ) x_i \sim \mathcal N(\mu_i,\Sigma_i) xiN(μi,Σi)
假设随机变量集合的维数 p p p,整个高斯图模型中所有随机变量对应的概率密度函数 P ( X ) \mathcal P(\mathcal X) P(X)表示为:
X = ( x 1 , x 2 , ⋯   , x p ) T P ( X ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] \begin{aligned} \mathcal X & = (x_1,x_2,\cdots,x_p)^T \\ \mathcal P(\mathcal X) & = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left[-\frac{1}{2} (x - \mu)^T \Sigma^{-1}(x - \mu)\right] \end{aligned} XP(X)=(x1,x2,,xp)T=(2π)2pΣ211exp[21(xμ)TΣ1(xμ)]
这明显是一个多元高斯分布一个高斯图模型和一个多元高斯分布存在映射关系。其中 μ \mu μ表示多元高斯分布的期望 Σ \Sigma Σ表示多元高斯分布的协方差矩阵
其中,期望 μ \mu μ表示为:
μ = [ μ i ] p × 1 = ( μ 1 μ 2 ⋮ μ p ) p × 1 \mu = [\mu_i]_{p \times 1} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{pmatrix}_{p \times 1} μ=[μi]p×1=μ1μ2μpp×1
协方差矩阵 Σ \Sigma Σ表示为:
Σ = [ σ i j ] p × p = ( σ 11 , σ 12 , ⋯   , σ 1 p σ 21 , σ 22 , ⋯   , σ 2 p ⋮ σ p 1 , σ p 2 , ⋯   , σ p p ) p × p \Sigma = [\sigma_{ij}]_{p \times p} = \begin{pmatrix} \sigma_{11},\sigma_{12},\cdots,\sigma_{1p} \\ \sigma_{21},\sigma_{22},\cdots,\sigma_{2p} \\ \vdots \\ \sigma_{p1},\sigma_{p2},\cdots,\sigma_{pp} \\ \end{pmatrix}_{p \times p} Σ=[σij]p×p=σ11,σ12,,σ1pσ21,σ22,,σ2pσp1,σp2,,σppp×p
其中 σ i j \sigma_{ij} σij表示随机变量 x i , x j x_i,x_j xi,xj协方差结果
这里没有写成 ( x i − μ i ) ( x j − μ j ) T (x_i - \mu_i)(x_j - \mu_j)^T (xiμi)(xjμj)T因为已经设定的一维随机变量。
σ i j = C o v ( x i , x j ) = E [ ( x i − μ i ) ( x j − μ j ) ] \sigma_{ij} = Cov(x_i,x_j) = \mathbb E\left[(x_i - \mu_i)(x_j - \mu_j)\right] σij=Cov(xi,xj)=E[(xiμi)(xjμj)]

随机变量之间的边缘独立

根据协方差的定义,如果在同一物理量纲(基准)的条件下, C o v ( x i , x j ) = 0 Cov(x_i,x_j) = 0 Cov(xi,xj)=0,那个称随机变量 x i , x j x_i,x_j xi,xj是不相关的。从独立性的角度观察,即 x i , x j x_i,x_j xi,xj相互独立
这个相互独立意味着 x i x_i xi x j x_j xj在不观察其他变量的条件下是‘边缘独立/绝对独立’的,这种独立在现实世界的问题中并不常见。
σ i j = 0 ⇒ x i ⊥ x j σ i j = 0 ⇒ P ( x i , x j ) = P ( x i ) P ( x j ) \begin{aligned} \sigma_{ij} = 0 & \Rightarrow x_i \perp x_j \\ \sigma_{ij} = 0 & \Rightarrow \mathcal P(x_i,x_j) = \mathcal P(x_i)\mathcal P(x_j) \end{aligned} σij=0σij=0xixjP(xi,xj)=P(xi)P(xj)
如果两个随机变量之间的基准存在差异,对应的 σ i j \sigma_{ij} σij也可能存在很大差异。为此可以引入相关系数(Correlation Coefficient):
ρ i j = C o v ( x i , x j ) D ( x i ) D ( x j ) = σ i j σ i i σ j j \begin{aligned} \rho_{ij} & = \frac{Cov(x_i,x_j)}{\sqrt{\mathcal D(x_i)}\sqrt{\mathcal D(x_j)}} \\ & = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}} \end{aligned} ρij=D(xi) D(xj) Cov(xi,xj)=σiiσjj σij
如果相关系数 ρ i j = 0 \rho_{ij} = 0 ρij=0 x i , x j x_i,x_j xi,xj不相关。

随机变量之间的条件独立

条件独立性本质上是为了简化运算提出的一种假设,从而在概率图模型中得到映射。
关于高斯网络的条件独立性,引入一个概念精度矩阵(Precision Matrix),也称作 信息矩阵(Information Matrix)。它是协方差矩阵的逆矩阵
第一次遇到‘精度矩阵’是在推断任务之边缘概率分布与条件概率分布,记录一下时间点~
Λ = Σ − 1 = ( λ 11 , λ 12 , ⋯   , λ 1 p λ 21 , λ 22 , ⋯   , λ 2 p ⋮ λ p 1 , λ p 2 , ⋯   , λ p p ) p × p \Lambda = \Sigma^{-1} = \begin{pmatrix} \lambda_{11},\lambda_{12},\cdots,\lambda_{1p} \\ \lambda_{21},\lambda_{22},\cdots,\lambda_{2p} \\ \vdots \\ \lambda_{p1},\lambda_{p2},\cdots,\lambda_{pp} \\ \end{pmatrix}_{p \times p} Λ=Σ1=λ11,λ12,,λ1pλ21,λ22,,λ2pλp1,λp2,,λppp×p
关于精度矩阵 Λ \Lambda Λ条件独立性的关联关系表示如下:
其中 x − i − j x_{-i-j} xij表示随机变量集合 X \mathcal X X中除去 x i , x j x_i,x_j xi,xj之外的其他随机变量。
λ i j = 0 ⇔ x i ⊥ x j ∣ x − i − j \lambda_{ij} = 0 \Leftrightarrow x_i \perp x_j \mid x_{-i-j} λij=0xixjxij
精度矩阵的核心在于:精度矩阵中的元素与条件独立性(概率图的映射)紧密结合在一起

下一节将介绍高斯贝叶斯网络

相关参考:
高斯图模型、精度矩阵、偏相关系数、贝叶斯估计(利用贝叶斯做数据融合)、Wishart分布和逆Wishart分布
协方差——百度百科
概率图模型(四):经典概率图模型
机器学习-高斯网络(1)-总体介绍

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 变分推断(variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断(variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断(Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值