Probability
先验概率、后验概率、似然概率
在学习朴素贝叶斯(Naive Bayes)的时候,总是会混淆先验概率、后验概率和似然概率。通过这篇博客,我将对这三个概率的定义进行详细阐释,以更好地区分它们。
1、先验概率(prior probability)
百度百科:先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现的概率。
维基百科:在贝叶斯统计中,某一不确定量p的先验概率(prior probability)分布是在考虑“观测数据”前,能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。这个不确定量可以是一个参数,或者是一个隐含变量(英语:latent variable)。
我们可以发现这两个定义有一个共同点,即先验概率是不依靠观测数据的概率分布,也就是与其他因素独立的分布。在朴素贝叶斯中,类别c的概率就是先验概率,表示为。
2、后验概率(posterior probability)
百度百科:后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。
维基百科:在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率(posterior probability)是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。
在朴素贝叶斯中,后验概率指给定数据x后,类别的概率。
先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。
3、似然概率(likelihood)
百度百科:统计学中,似然函数是一种关于统计模型参数的函数。给定输出x xx时,关于参数的似然函数 (在数值上)等于给定参数后变量X的概率:。
维基百科:在数理统计学中,似然函数(英语:likelihood function)是一种关于统计模型中的参数的函数,表示模型参数中的似然性(英语:likelihood)。
似然概率其实很好理解,就是说我们现在有一堆数据,现在需要构建一组参数对这些数据建模,以使得模型能够尽可能地拟合这些数据。所以我们要做的就是从很多组参数中选出一组使得模型对数据的拟合程度最高,所以也常常说最大似然概率。
注意“似然”与“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然”和“概率”又有明确的区分:
- “概率”描述了给定模型参数后,描述结果的合理性,而不涉及任何观察到的数据
- “似然”描述了给定了特定观测值后,描述模型参数是否合理
举个栗子,抛一枚均匀的硬币,拋20次,问15次拋得正面的可能性有多大?这里的可能性就是“概率”;而拋一枚硬币,拋20次,结果15次正面向上,问其为均匀的可能性?这里的可能性就是“似然”。
4、先验、后验概率与似然之间的关系
- 先验概率:
- 后验概率:
- 似然:
存在的关系
一般而言数据X的分布是已知的,因此
此外,当参数是均匀分布时,后验概率与似然概率成正比,即
6、ELBO
1、问题定义
给定一个observation variable x(比如RGB图片)和latent variable z (比如是RGB图片经过encoder得到的latent feature),假设我们想学习后验概率,但发现在实际中不易或不能求解,那么该如何求解这个后验概率?
2、High-level Introduction of VI Solution
- 后验概率直接求解不可行
- 马尔科夫蒙特卡洛求解精确但是计算慢
- 以优化的方式用 近似:首先在参数z上具体化一个较好的分布集合,之后从中找到一个好的近似。
- Variational Bayes(VB),L是KL散度:
是整个概率分布空间中的一个概率分布family,VI要做的就是找到中的一个最优的替代概率分布(此分布比后验分布好求解),其是整个中离最近的分布。假设L是此空间上的距离函数,则我们要找的这个概率分布就可以表示为:
如果我们能找到这样的分布,那么我们就可以用来估计原来不易直接计算的 。
3、ELBO
当我们取L为KL divergence(经常用于度量两个概率分布之间的距离)的时候,此问题变成Variational Bayes (VB) 问题。(划重点,我们的目标变成了最小化以下KL散度。)
展开KL项,
但是再这个优化目标中计算又需要用到,因此需要将KL想进行变化。
这里关于对的积分,其实就是关于的期望,即,那么上式能表示成期望形式:
第二项可以用条件概率公式继续展开:
此时,变成了三项,观察各项,发现第三项里面与期望的对象是无关的,所以期望符号可以直接去掉,于是得到:
此时,我们把前两项称之为-ELBO (Evidence Lower Bound)。(注意这里是负的ELBO)
那么关于的为:
实际计算中,ELBO可以表示成以下形式进行计算:
我们再观察(其为常数,因为是关于数据集本身的统计信息,我们称之为Evidence)
因为等式左边是常数,我们的目标又是最小化KL项,那么我们要做的其实就是最大化 ,即:
到此,我们可以总结说:想要找到只要最大化的ELBO就可以了。
至于为什么叫Evidence Lower Bound,,因为KL散度always大于等于0,所以有以下不等式
ELBO其实就是数据Evidencelog 的下界。