机器学习基础——先验概率、后验概率和似然估计的讲解;频率派和贝叶斯派之分;以及MLE和MAP方法的解析

1、先验概率

        假定 B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_n B1B2Bn是某个过程所有可能的前提条件,也就是 B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_n B1B2Bn为试验 E E E样本空间 Ω \Omega Ω的一个划分,或称为试验 E E E的一个完备事件组。
        由以上的假设,则 P ( B i ) ( i = 1 , 2 , … , n ) P(B_i)(i=1,2,\ldots ,n) P(Bi)i=12n是人们事先对各个前提条件出现的可能性大小的估计,称为先验概率。可以视为因果关系中的 P ( 因 ) P(因) P(),用公式表示为 P ( θ ) P(\theta) P(θ)
        通俗来讲,先验概率就是通过历史经验来确定事件 B i B_i Bi发生的原因。小学课本里面学习过的看云识天气,就一种先验概率。通过观察天空中云朵和云层的状态,来推测今天是阴天、晴天还是雨天(即事件 B i B_i Bi)。“朝霞不出门,晚霞行千里”,讲的就是先验概率

2、后验概率

        如果通过先验概率得到了一个结果 A A A,那么贝叶斯公式就为我们提供了根据A的出现评价各个前提条件作用的方法。 P ( B i ∣ A ) ( i = 1 , 2 , … , n ) P(B_i | A)(i=1,2,\ldots ,n) P(BiA)i=12n即是 B i B_i Bi A A A的出现发挥作用的可能性,称为后验概率。同理,可以视为 P ( 因 ∣ 果 ) P(因|果) P(),用公式表示为 P ( θ ∣ X ) P(\theta|X) P(θX)。这里第一次出现 X X X θ \theta θ两个变量,是相互独立的。
        比方说,出门散步和不出门散步是事件 A A A的两种状态。那么,现在已经知道我出门状态的结果,倒过来推测天气情况,就是后验概率。假如我今天不出门,极大可能是下雨,也有可能是阴天(看似很快就要下雨了);但如果我出门,极大可能是晴天,但也有可能是因为要紧的事要出门处理,不得不冒雨出去。通过结果来推测原因,这就是后验概率。这个例子很像决策树中的经典例子~

3、似然估计

        Likelihood的中文是似然。已知原因来估计结果的概率分布就是似然估计。可以视为 P ( 果 ∣ 因 ) P(果|因) P(),用公式表示为 P ( X ∣ θ ) P(X|\theta) P(Xθ)
        即已知天气的情况,决定是否出门散步的概率。

4、总结

        首先我们需要知道条件概率公式:
        假设 A A A B B B是两个事件,且 P ( A ) > 0 P(A)>0 P(A)>0,称 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)在事件A发生条件下事件B发生的条件概率
        接着我们分析 贝叶斯公式: P ( B i ∣ A ) = P ( B i ) × P ( A ∣ B i ) P ( A ) P (B_i | A) = \frac{P (B_i) \times P (A | B_i)}{P (A)} P(BiA)=P(A)P(Bi)×P(ABi),规范化即 后 验 概 率 = P ( θ ∣ X ) = P ( θ ) × P ( X ∣ θ ) P ( X ) = 先 验 概 率 × 似 然 估 计 P ( X ) 后验概率=P (\theta | X) = \frac{P (\theta) \times P ( X| \theta)}{P (X)}=\frac{先验概率 \times 似然估计}{P (X)} =P(θX)=P(X)P(θ)×P(Xθ)=P(X)×
        其中, P ( X ) P (X) P(X)表示全概率公式为: P ( X ) = ∑ j = 1 n P ( θ j ) × P ( X ∣ θ j ) P (X) = \sum_{j=1}^{n} P ( \theta_j) \times P (X | \theta_j) P(X)=j=1nP(θj)×P(Xθj)。还是这个看云识天气的情景, P ( X ) P (X) P(X)表示结果的概率分布,即365天里面每天出门或者宅在家里面的概率分布,即二项分布(X这个事件有两种可能状态)。当然可以是多项分布以及其它别的分布。
        以上的理论引申出两大学派,大致为:频率派贝叶斯派频率派代表的理论是 M L E MLE MLE(最大似然估计),而贝叶斯派的代表理论则是 M A P MAP MAP(最大后验估计)
        频率派认为,用样本估计事件发生的概率分布是真实可信的。也就是,365天中每一天都有一种天气状况,往深的考虑,一天甚至有多种天气状况。这个问题就变为了,求在当前的天气状态下,我是出门还是不出门宅在家里的概率。所以以一年的数据为样本,样本总量 n ≥ 365 n\geq365 n365。最终可能得到的统计结果是晴天出门概率为0.8,阴天出门的概率为0.5,雨天出门的概率为0.2,雷暴大风天气出门概率为0.05等等。
        上面这个问题可能有点复杂,我们以丢硬币为例子,是典型的二项分布。
        分布律为 P { X = K } = C n k × θ k × ( 1 − θ ) n − k P\{X=K\} =C^k_ {n}\times \theta^k \times (1-\theta)^{n-k} P{X=K}=Cnk×θk×(1θ)nk
        频率派认为在 K K K表示正面朝上时,求出使得 P { X = K } P\{X=K\} P{X=K}最大的 θ \theta θ的值(求导后求极值即可),其中n实验的总次数和k正面朝上的次数由统计得出。显然极端情况100次硬币都是正面朝上的概率没有频率派没有考虑到。在缺乏样本数据的情况下,很容易得到错误的答案。
        而贝叶斯派认为参数都是随机变量,都有分布。利用贝叶斯定理 P ( θ i ∣ X ) = P ( θ i ) × P ( X ∣ θ i ) P ( X ) P (\theta_i | X) = \frac{P (\theta_i) \times P ( X| \theta_i)}{P (X)} P(θiX)=P(X)P(θi)×P(Xθi)。我们关心左式子最大值时候的 θ \theta θ θ \theta θ是有分布的。其中, θ i \theta_i θi分别代表晴天、阴天等天气情况或者是硬币正和反两种情况。
        把这n次试验作为一组样本,那么在总样本里面 P ( X ) P(X) P(X) θ \theta θ无关,由统计得出。最大后验估计即为已知一组实验结果的情况下求 θ \theta θ的最大值。换句话说, M A P MAP MAP即是假设参数 θ \theta θ的概率分布,然后通过样本数据去进行修正。所以式子就变为 a r g m a x θ = a r g m a x P ( X i ∣ θ ) × P ( θ ) argmax \theta=argmaxP (X_i | \theta) \times P (\theta) argmaxθ=argmaxP(Xiθ)×P(θ),等式左右两边成正比。在样本比较小的情况下,我们计算出来的 θ \theta θ的值比 M L E MLE MLE计算出来的更加好。比方说丢硬币正面朝上的概率会在50%附近波动,不会出现极端值。
        但是,最大后验估计并不是完全的贝叶斯派,只不过用到了贝叶斯理论。完全的贝叶斯派应该将 P ( X ) P(X) P(X)也计算出来,称为贝叶斯预测或者完整的后验概率计算。

5、参考

        以上是我个人的观点和总结。参考了b站机器学习我到底在学什么一个例子搞清楚(先验分布/后验分布/似然估计)以及频率派vs贝叶斯派
        如果存在不足之处,欢迎指正,相互学习。觉得不错请点个赞吧,创作不易,谢谢!少年加油,但行好事,莫问前程~

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TerryBlog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值