机器学习3. EM算法与变分推断(Variational Inference)

参考文献

  1. PRML
EM算法

核心思想(以混合高斯为例):样本 x x x是由多个混合高斯组成,若我们知道每个数据 x i x_i xi来自于哪个混合高斯(如第 k k k个),那么我们对所有属于类 k k k x i k x_{ik} xik使用极大似然估计就可以求得相应的参数。但是现在我们不知道样本 x i k x_{ik} xik中到底属于哪个 k k k,我们可以先根据当前的参数 θ \theta θ估计一个样本的类别向量 z i k z_{ik} zik(E步),使得在这个类别向量下我的总似然最大,然后我在这个类别向量的条件下用以前的极大似然方法估计我新的参数(M步)。重复迭代直至收敛。

  • Jession 不等式

    • 对凸函数 f ( x ) f(x) f(x)来说,有下式成立(凹函数反向)
      E [ f ( x ) ] ≥ f ( E [ x ] ) E[f(x)] \geq f(E[x]) E[f(x)]f(E[x])
    • 等号成立条件:
      x x x是常数
  • 原始问题似然函数推导:
    l ( θ ) = ∑ i l o g ( P ( x i ; θ ) ) l(\theta)=\sum_i log(P(x_i;\theta)) l(θ)=ilog(P(xi;θ)) 对数似然定义
    = ∑ i l o g ( ∑ z i P ( x i , z i ; θ ) ) =\sum_i log(\sum_{z_i} P(x_i,z_i;\theta)) =ilog(ziP(xi,zi;θ)) 将隐变量展开
    = ∑ i l o g ( ∑ z i Q ( z i ) P ( x i , z i , θ ) Q ( z i ) ) =\sum_{i}log(\sum_{z_i}Q(z_i)\frac{P(x_i,z_i,\theta)}{Q(z_i)}) =ilog(ziQ(zi)Q(zi)P(xi,zi,θ)) ,其中 Q ( z i ) {Q(z_i)} Q(zi) z i z_i zi的分布(类似一个multinational的分布)

    • 若直接对上式进行极大似然估计,那么由于对数内侧求和符号的存在,所求偏导比较复杂。
    • 观察对数项,其实是 P ( x i , z i , θ ) Q ( z i ) \frac{P(x_i,z_i,\theta)}{Q(z_i)} Q(zi)P(xi,zi,θ) Q Q Q分布的一个数学期望,又因为对数函数是凹函数,由jession不等式可得下界:
      ∑ i l o g ( ∑ z i Q ( z i ) P ( x i , z i , θ ) Q ( z i ) ) = ∑ i l o g ( E Q [ P ( x i , z i , θ ) Q ( z i ) ] ) \sum_{i}log(\sum_{z_i}Q(z_i)\frac{P(x_i,z_i,\theta)}{Q(z_i)}) =\sum_{i}log(E_Q[\frac{P(x_i,z_i,\theta)}{Q(z_i)}]) ilog(ziQ(zi)Q(zi)P(xi,zi,θ))=ilog(EQ[Q(zi)P(xi,zi,θ)])
      ≥ ∑ i E Q [ l o g ( P ( x i , z i , θ ) Q ( z i ) ) ] \geq \sum_{i}E_Q[log(\frac{P(x_i,z_i,\theta)}{Q(z_i)})] iEQ[log(Q(zi)P(xi,zi,θ))] (Jession 不等式)
      = ∑ i ∑ z i Q ( z i ) l o g ( P ( x i , z i , θ ) ) Q ( z i ) ) =\sum_i\sum_{z_i}Q(z_i)log(\frac{P(x_i,z_i,\theta))}{Q(z_i)}) =iziQ(zi)log(Q(zi)P(x
### 回答1: 变分推断variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值