机器学习基础——先验概率、后验概率和似然估计的讲解；频率派和贝叶斯派之分；以及MLE和MAP方法的解析

最新推荐文章于 2023-10-17 15:32:35 发布

TerryBlog

最新推荐文章于 2023-10-17 15:32:35 发布

阅读量1.3k

点赞数 2

分类专栏： # 机器学习文章标签：机器学习概率论

本文链接：https://blog.csdn.net/qq_44853197/article/details/118408668

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、先验概率

        假定 $B_1，B_2，\ldots ，B_n$ 是某个过程所有可能的前提条件，也就是 $B_1，B_2，\ldots ，B_n$ 为试验 $E$ 样本空间 $\Omega$ 的一个划分，或称为试验 $E$ 的一个完备事件组。
        由以上的假设，则 $P(B_i)（i=1，2，\ldots ，n）$ 是人们事先对各个前提条件出现的可能性大小的估计，称为先验概率。可以视为因果关系中的 $P (因)$ ，用公式表示为 $P(\theta)$ 。
        通俗来讲，先验概率就是通过历史经验来确定事件 $B_i$ 发生的原因。小学课本里面学习过的看云识天气，就一种先验概率。通过观察天空中云朵和云层的状态，来推测今天是阴天、晴天还是雨天（即事件 $B_i$ ）。“朝霞不出门，晚霞行千里”，讲的就是先验概率。

2、后验概率

如果通过先验概率得到了一个结果 $A$ ，那么贝叶斯公式就为我们提供了根据A的出现评价各个前提条件作用的方法。 $P(B_i | A)（i=1，2，\ldots ，n）$ 即是 $B_i$ 对 $A$ 的出现发挥作用的可能性，称为后验概率。同理，可以视为 $P (因 ∣ 果)$ ，用公式表示为 $P(\theta|X)$ 。这里第一次出现 $X$ 和 $\theta$ 两个变量，是相互独立的。
比方说，出门散步和不出门散步是事件 $A$ 的两种状态。那么，现在已经知道我出门状态的结果，倒过来推测天气情况，就是后验概率。假如我今天不出门，极大可能是下雨，也有可能是阴天（看似很快就要下雨了）；但如果我出门，极大可能是晴天，但也有可能是因为要紧的事要出门处理，不得不冒雨出去。通过结果来推测原因，这就是后验概率。这个例子很像决策树中的经典例子~

3、似然估计

Likelihood的中文是似然。已知原因来估计结果的概率分布就是似然估计。可以视为 $P (果 ∣ 因)$ ，用公式表示为 $P(X|\theta)$ 。
即已知天气的情况，决定是否出门散步的概率。

4、总结

        首先我们需要知道条件概率公式：
        假设 $A$ ， $B$ 是两个事件，且 $P (A) > 0$ ，称 $P(B|A)=\frac{P(AB)}{P(A)}$ 为在事件A发生条件下事件B发生的条件概率。
        接着我们分析 贝叶斯公式： $(B_i | A) = \frac{P (B_i) \times P (A | B_i)}{P (A)}$ ，规范化即 $(\theta | X) = \frac{P (\theta) \times P ( X| \theta)}{P (X)}=\frac{先验概率 \times 似然估计}{P (X)}$ 。
        其中， $P (X)$ 表示全概率公式为： $\sum_{j=1}^{n} P ( \theta_j) \times P (X | \theta_j)$ 。还是这个看云识天气的情景， $P (X)$ 表示结果的概率分布，即365天里面每天出门或者宅在家里面的概率分布，即二项分布（X这个事件有两种可能状态）。当然可以是多项分布以及其它别的分布。
        以上的理论引申出两大学派，大致为：频率派和贝叶斯派。频率派代表的理论是 $M L E$ （最大似然估计），而贝叶斯派的代表理论则是 $M A P$ （最大后验估计）。
        频率派认为，用样本估计事件发生的概率分布是真实可信的。也就是，365天中每一天都有一种天气状况，往深的考虑，一天甚至有多种天气状况。这个问题就变为了，求在当前的天气状态下，我是出门还是不出门宅在家里的概率。所以以一年的数据为样本，样本总量 $n\geq365$ 。最终可能得到的统计结果是晴天出门概率为0.8，阴天出门的概率为0.5，雨天出门的概率为0.2，雷暴大风天气出门概率为0.05等等。
        上面这个问题可能有点复杂，我们以丢硬币为例子，是典型的二项分布。
        分布律为 $P\{X=K\} =C^k_ {n}\times \theta^k \times (1-\theta)^{n-k}$
        频率派认为在 $K$ 表示正面朝上时，求出使得 $P\{X=K\}$ 最大的 $\theta$ 的值（求导后求极值即可），其中n实验的总次数和k正面朝上的次数由统计得出。显然极端情况100次硬币都是正面朝上的概率没有频率派没有考虑到。在缺乏样本数据的情况下，很容易得到错误的答案。
        而贝叶斯派认为参数都是随机变量，都有分布。利用贝叶斯定理， $(\theta_i | X) = \frac{P (\theta_i) \times P ( X| \theta_i)}{P (X)}$ 。我们关心左式子最大值时候的 $\theta$ ， $\theta$ 是有分布的。其中， $\theta_i$ 分别代表晴天、阴天等天气情况或者是硬币正和反两种情况。
        把这n次试验作为一组样本，那么在总样本里面 $P (X)$ 与 $\theta$ 无关，由统计得出。最大后验估计即为已知一组实验结果的情况下求 $\theta$ 的最大值。换句话说， $M A P$ 即是假设参数 $\theta$ 的概率分布，然后通过样本数据去进行修正。所以式子就变为 $\theta=argmaxP (X_i | \theta) \times P (\theta)$ ，等式左右两边成正比。在样本比较小的情况下，我们计算出来的 $\theta$ 的值比 $M L E$ 计算出来的更加好。比方说丢硬币正面朝上的概率会在50%附近波动，不会出现极端值。
        但是，最大后验估计并不是完全的贝叶斯派，只不过用到了贝叶斯理论。完全的贝叶斯派应该将 $P (X)$ 也计算出来，称为贝叶斯预测或者完整的后验概率计算。

5、参考

以上是我个人的观点和总结。参考了b站机器学习我到底在学什么、一个例子搞清楚（先验分布/后验分布/似然估计）以及频率派vs贝叶斯派
如果存在不足之处，欢迎指正，相互学习。觉得不错请点个赞吧，创作不易，谢谢！少年加油，但行好事，莫问前程~

TerryBlog

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习基础——先验概率、后验概率和似然估计的讲解；频率派和贝叶斯派之分；以及MLE和MAP方法的解析

1、先验概率        假定B1，B2，…，BnB_1，B_2，\ldots ，B_nB1，B2，…，Bn是某个过程所有可能的前提条件，也就是B1，B2，…，BnB_1，B_2，\ldots ，B_nB1，B2，…，Bn为试验EEE样本空间 Ω\OmegaΩ的一个划分，或称为试验EEE的一个完备时间组。        由以上的假设
复制链接

扫一扫