【基础数学】先验、后验概率，似然，EM算法，ELBO(Evidence Lower Bound)，多变量条件概率公式(多变量贝叶斯公式)

最新推荐文章于 2024-09-14 01:15:00 发布

devil_son1234

最新推荐文章于 2024-09-14 01:15:00 发布

阅读量7.2k

点赞数 13

文章标签：算法概率论机器学习

Probability

先验概率、后验概率、似然概率

在学习朴素贝叶斯（Naive Bayes）的时候，总是会混淆先验概率、后验概率和似然概率。通过这篇博客，我将对这三个概率的定义进行详细阐释，以更好地区分它们。

1、先验概率(prior probability)

百度百科：先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现的概率。

维基百科：在贝叶斯统计中，某一不确定量p的先验概率（prior probability）分布是在考虑“观测数据”前，能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度，而不是这个不确定量的随机性。这个不确定量可以是一个参数，或者是一个隐含变量（英语：latent variable）。

我们可以发现这两个定义有一个共同点，即先验概率是不依靠观测数据的概率分布，也就是与其他因素独立的分布。在朴素贝叶斯中，类别c的概率就是先验概率，表示为 $P(c)$ 。

2、后验概率(posterior probability)

百度百科：后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。

维基百科：在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率（posterior probability）是在考虑和给出相关证据或数据后所得到的条件概率。同样，后验概率分布是一个未知量（视为随机变量）基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

在朴素贝叶斯中，后验概率指给定数据x后，类别 $c\in C$ 的概率 $P(c | x)$ 。

先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。

3、似然概率(likelihood)

百度百科：统计学中，似然函数是一种关于统计模型参数的函数。给定输出x xx时，关于参数 $\theta$ 的似然函数 $L(\theta|x)$ （在数值上）等于给定参数 $\theta$ 后变量X的概率： $L(\theta|x)=P(X=x|\theta)$ 。

维基百科：在数理统计学中，似然函数（英语：likelihood function）是一种关于统计模型中的参数的函数，表示模型参数中的似然性（英语：likelihood）。

似然概率其实很好理解，就是说我们现在有一堆数据，现在需要构建一组参数对这些数据建模，以使得模型能够尽可能地拟合这些数据。所以我们要做的就是从很多组参数中选出一组使得模型对数据的拟合程度最高，所以也常常说最大似然概率。

注意“似然”与“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然”和“概率”又有明确的区分：

“概率”描述了给定模型参数后，描述结果的合理性，而不涉及任何观察到的数据
“似然”描述了给定了特定观测值后，描述模型参数是否合理

举个栗子，抛一枚均匀的硬币，拋20次，问15次拋得正面的可能性有多大？这里的可能性就是“概率”；而拋一枚硬币，拋20次，结果15次正面向上，问其为均匀的可能性？这里的可能性就是“似然”。

4、先验、后验概率与似然之间的关系

先验概率： $P ( c )$
后验概率： $P (c|x)$
似然： $P(X=x|\theta =c)$

存在的关系

一般而言数据X的分布是已知的，因此

此外，当参数 $\theta$ 是均匀分布时，后验概率与似然概率成正比，即

6、ELBO

1、问题定义

给定一个observation variable x(比如RGB图片)和latent variable z (比如是RGB图片经过encoder得到的latent feature)，假设我们想学习后验概率 $p(z|x)$ ，但发现 $p(z|x)$ 在实际中不易或不能求解，那么该如何求解这个后验概率？

2、High-level Introduction of VI Solution

后验概率直接求解不可行
马尔科夫蒙特卡洛求解精确但是计算慢
以优化的方式用 $q^*$ 近似 $p(z|x)$ :首先在参数z上具体化一个较好的分布集合 $Q$ ，之后从 $Q$ 中找到一个好的 $q^*(z)$ 近似 $p(z|x)$ 。 $q^*(z)=\underset{q(z) \in Q}{\arg \min } L(q(z), p(z \mid x))$
Variational Bayes(VB),L是KL散度: $L(q(z), p(z \mid x))=\mathrm{KL}(q(z) \| p(z|x))$