1、先验概率
假定
B
1
,
B
2
,
…
,
B
n
B_1,B_2,\ldots ,B_n
B1,B2,…,Bn是某个过程所有可能的前提条件,也就是
B
1
,
B
2
,
…
,
B
n
B_1,B_2,\ldots ,B_n
B1,B2,…,Bn为试验
E
E
E样本空间
Ω
\Omega
Ω的一个划分,或称为试验
E
E
E的一个完备事件组。
由以上的假设,则
P
(
B
i
)
(
i
=
1
,
2
,
…
,
n
)
P(B_i)(i=1,2,\ldots ,n)
P(Bi)(i=1,2,…,n)是人们事先对各个前提条件出现的可能性大小的估计,称为先验概率。可以视为因果关系中的
P
(
因
)
P(因)
P(因),用公式表示为
P
(
θ
)
P(\theta)
P(θ)。
通俗来讲,先验概率就是通过历史经验来确定事件
B
i
B_i
Bi发生的原因。小学课本里面学习过的看云识天气,就一种先验概率。通过观察天空中云朵和云层的状态,来推测今天是阴天、晴天还是雨天(即事件
B
i
B_i
Bi)。“朝霞不出门,晚霞行千里”,讲的就是先验概率。
2、后验概率
如果通过先验概率得到了一个结果
A
A
A,那么贝叶斯公式就为我们提供了根据A的出现评价各个前提条件作用的方法。
P
(
B
i
∣
A
)
(
i
=
1
,
2
,
…
,
n
)
P(B_i | A)(i=1,2,\ldots ,n)
P(Bi∣A)(i=1,2,…,n)即是
B
i
B_i
Bi对
A
A
A的出现发挥作用的可能性,称为后验概率。同理,可以视为
P
(
因
∣
果
)
P(因|果)
P(因∣果),用公式表示为
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)。这里第一次出现
X
X
X和
θ
\theta
θ两个变量,是相互独立的。
比方说,出门散步和不出门散步是事件
A
A
A的两种状态。那么,现在已经知道我出门状态的结果,倒过来推测天气情况,就是后验概率。假如我今天不出门,极大可能是下雨,也有可能是阴天(看似很快就要下雨了);但如果我出门,极大可能是晴天,但也有可能是因为要紧的事要出门处理,不得不冒雨出去。通过结果来推测原因,这就是后验概率。这个例子很像决策树中的经典例子~
3、似然估计
Likelihood的中文是似然。已知原因来估计结果的概率分布就是似然估计。可以视为
P
(
果
∣
因
)
P(果|因)
P(果∣因),用公式表示为
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)。
即已知天气的情况,决定是否出门散步的概率。
4、总结
首先我们需要知道条件概率公式:
假设
A
A
A,
B
B
B是两个事件,且
P
(
A
)
>
0
P(A)>0
P(A)>0,称
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A)=\frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB) 为在事件A发生条件下事件B发生的条件概率。
接着我们分析 贝叶斯公式:
P
(
B
i
∣
A
)
=
P
(
B
i
)
×
P
(
A
∣
B
i
)
P
(
A
)
P (B_i | A) = \frac{P (B_i) \times P (A | B_i)}{P (A)}
P(Bi∣A)=P(A)P(Bi)×P(A∣Bi),规范化即
后
验
概
率
=
P
(
θ
∣
X
)
=
P
(
θ
)
×
P
(
X
∣
θ
)
P
(
X
)
=
先
验
概
率
×
似
然
估
计
P
(
X
)
后验概率=P (\theta | X) = \frac{P (\theta) \times P ( X| \theta)}{P (X)}=\frac{先验概率 \times 似然估计}{P (X)}
后验概率=P(θ∣X)=P(X)P(θ)×P(X∣θ)=P(X)先验概率×似然估计。
其中,
P
(
X
)
P (X)
P(X)表示全概率公式为:
P
(
X
)
=
∑
j
=
1
n
P
(
θ
j
)
×
P
(
X
∣
θ
j
)
P (X) = \sum_{j=1}^{n} P ( \theta_j) \times P (X | \theta_j)
P(X)=∑j=1nP(θj)×P(X∣θj)。还是这个看云识天气的情景,
P
(
X
)
P (X)
P(X)表示结果的概率分布,即365天里面每天出门或者宅在家里面的概率分布,即二项分布(X这个事件有两种可能状态)。当然可以是多项分布以及其它别的分布。
以上的理论引申出两大学派,大致为:频率派和贝叶斯派。频率派代表的理论是
M
L
E
MLE
MLE(最大似然估计),而贝叶斯派的代表理论则是
M
A
P
MAP
MAP(最大后验估计)。
频率派认为,用样本估计事件发生的概率分布是真实可信的。也就是,365天中每一天都有一种天气状况,往深的考虑,一天甚至有多种天气状况。这个问题就变为了,求在当前的天气状态下,我是出门还是不出门宅在家里的概率。所以以一年的数据为样本,样本总量
n
≥
365
n\geq365
n≥365。最终可能得到的统计结果是晴天出门概率为0.8,阴天出门的概率为0.5,雨天出门的概率为0.2,雷暴大风天气出门概率为0.05等等。
上面这个问题可能有点复杂,我们以丢硬币为例子,是典型的二项分布。
分布律为
P
{
X
=
K
}
=
C
n
k
×
θ
k
×
(
1
−
θ
)
n
−
k
P\{X=K\} =C^k_ {n}\times \theta^k \times (1-\theta)^{n-k}
P{X=K}=Cnk×θk×(1−θ)n−k
频率派认为在
K
K
K表示正面朝上时,求出使得
P
{
X
=
K
}
P\{X=K\}
P{X=K}最大的
θ
\theta
θ的值(求导后求极值即可),其中n实验的总次数和k正面朝上的次数由统计得出。显然极端情况100次硬币都是正面朝上的概率没有频率派没有考虑到。在缺乏样本数据的情况下,很容易得到错误的答案。
而贝叶斯派认为参数都是随机变量,都有分布。利用贝叶斯定理,
P
(
θ
i
∣
X
)
=
P
(
θ
i
)
×
P
(
X
∣
θ
i
)
P
(
X
)
P (\theta_i | X) = \frac{P (\theta_i) \times P ( X| \theta_i)}{P (X)}
P(θi∣X)=P(X)P(θi)×P(X∣θi)。我们关心左式子最大值时候的
θ
\theta
θ,
θ
\theta
θ是有分布的。其中,
θ
i
\theta_i
θi分别代表晴天、阴天等天气情况或者是硬币正和反两种情况。
把这n次试验作为一组样本,那么在总样本里面
P
(
X
)
P(X)
P(X)与
θ
\theta
θ无关,由统计得出。最大后验估计即为已知一组实验结果的情况下求
θ
\theta
θ的最大值。换句话说,
M
A
P
MAP
MAP即是假设参数
θ
\theta
θ的概率分布,然后通过样本数据去进行修正。所以式子就变为
a
r
g
m
a
x
θ
=
a
r
g
m
a
x
P
(
X
i
∣
θ
)
×
P
(
θ
)
argmax \theta=argmaxP (X_i | \theta) \times P (\theta)
argmaxθ=argmaxP(Xi∣θ)×P(θ),等式左右两边成正比。在样本比较小的情况下,我们计算出来的
θ
\theta
θ的值比
M
L
E
MLE
MLE计算出来的更加好。比方说丢硬币正面朝上的概率会在50%附近波动,不会出现极端值。
但是,最大后验估计并不是完全的贝叶斯派,只不过用到了贝叶斯理论。完全的贝叶斯派应该将
P
(
X
)
P(X)
P(X)也计算出来,称为贝叶斯预测或者完整的后验概率计算。
5、参考
以上是我个人的观点和总结。参考了b站机器学习我到底在学什么、一个例子搞清楚(先验分布/后验分布/似然估计)以及频率派vs贝叶斯派
如果存在不足之处,欢迎指正,相互学习。觉得不错请点个赞吧,创作不易,谢谢!少年加油,但行好事,莫问前程~