前言:初学小白边学边写,如有不准确还请各位指出。
一、背景
在本章中,我们将讨论变分推断,它将后验推断简化为优化问题。请注意,变分推断是一个庞大的主题,本章只是给出了一个高层次的概述。
为什么说变分推断将后验推断简化为优化问题呢?
(一)优化:
当从统计学角度的频率角度来解释和理解机器学习的方法论时,机器学习的目标是通过对样本的频率分布进行建模,从中推断出模型参数的最优估计。在频率角度中,模型参数的最佳值是通过最小化损失函数Loss Function来寻找的,此时机器学习问题被视为一个优化问题,在不断优化中寻找最佳参数。例如回归问题:
模型:,参数为w,目标求最佳w
策略:loss function:L(w) = , = argminL(w)
通过不断优化损失函数的方法来求最佳w
解法:如梯度下降算法等。
(二)后验推断:
与频率角度相对的是贝叶斯角度。在贝叶斯角度下,机器学习算法的目标是通过将先验知识与观测数据相结合,推断出模型的后验分布。贝叶斯角度强调了不确定性的存在,并将概率作为描述模型参数和预测结果的基本工具。
贝叶斯定理:,为模型的参数,x为原始训练数据
先验:p(w),即对参数的原有认知
似然:p(x|),不同参数下的x的分布
后验:p(|x)。p(x)是固定值,不受模型参数的影响,后验即为原有认知p()在通过学习一些数据p(x|)后,重新对的认识。通过后验分布,我们可以获得关于参数的不确定性信息。
在贝叶斯角度中,机器学习问题被视为一个推断问题,通过观测数据来更新模型参数的概率分布。 贝叶斯具有推断与决策两个任务:
贝叶斯推断(Inference):求后验分布。
贝叶斯决策(decision):根据已有的n各样本X,以及新的样本,求
p(|x)=
决策问题转换为求后验的期望,所以在贝叶斯框架中,关键是求后验,即进行贝叶斯推断。
求法:精确推断、近似推断(确定性近似、随机近似)
变分推断( Variational inference )即为一种确定性近似的方法,它可以将后验推断简化为优化问题。即想办法找到一个分布q(z)去逼近我们没有办法计算得到解析解的后验分布。
二、公式推导
(一) 变量含义:
X:观测数据(observed data),即直接观察或收集到的数据。
Z:隐变量和参数(latent variable + parameter),隐变量为不可观察的变量,起关键作用的未知变量,参数是模型中需要学习或估计的固定值,二者合称为Z。
(X,Z):完全数据(complete data),X和Z的联合,提供数据生成过程的完整信息。
(二) 推导过程:
对上式等号两边分别对 q(Z) 求期望:
左边:
右边第一项:
右边第二项:
即:
右边第一项被称为ELBO(Evidence Lower Bound)对数证据下界, 右边第二项是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence),它们通常用于评估变分推断方法的近似质量。
上文已说,求解后验分布通常是非常困难的,所以我们采用变分推断的近似推断来近似后验分布,使。其中一个关键问题是如何衡量近似后验分布的质量。ELBO就提供了一个衡量近似后验分布质量的指标。它是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence)的下界。KL越小,q(Z)与p(Z|X)就越接近,ELBO越大,近似后验分布的质量越高,与真实后验分布的差距就越小。
所以我们要做的就是寻找一个q(Z),使ELBO达到最大值,即
已知Z是一组隐变量和参数组成的一组随机变量的一个组合,假设q(Z)可以划分为M个组,每个划分之间是没有相互作用的,是相互独立的。(思想源于统计学中的mean theory)
求其中的,要先把其他M-1个分量(1,2,...j-1,j+1,...M-1,M)固定住。求出每个后再相乘得到q(Z)。
将其代入:
其中,记作1式,记作2式。
1式
2式推导(输入公式太麻烦了,后续改为手写)
单拎出其中相加的一项来进行推导
可推断出得其他项也会得出此结果,所以
又因为我们只关注j项,被固定的其他项可看作常数C,所以:
1式 - 2式
设
所以
得出最终结论!
参考文献
1. KevinP.Murphy-ProbabilisticMachineLearning_AdvancedTopics(AdaptiveComputatio
2. B站视频:机器学习-变分推断1(背景介绍)_哔哩哔哩_bilibili