第二章 概率论基础(一)
本章主要介绍概率学和统计学的基本概念。
频率学派与贝叶斯学派
抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:
- 频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;
- 而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
频率学派
古典频率学派对概率的定义如下:
- 大量重复进行同一实验,事件A发生的频率总是接近某一常数,并在其附近进行摆动,此时,将该常数称为事件A的概率,记作P(A)。
古典频率学派对概率的定义包含以下两个要点:
- 事件A发生的概率是常数;
- 事件A发生的概率是重复多次进行同一实验得到的。
频率学派的局限性:
- 频率学派评估可重复实验事件发生的概率具有一定的现实意义;
- 频率学派在评估不可重复实验事件发生的概率时具有很大的局限性。
贝叶斯学派
贝叶斯学派对概率的定义如下:
- 贝叶斯学派评估事件A发生的概率带有主观性,且事件A发生的概率是当前观测数据集D下的概率,即条件概率P(A|D),当观测数据集更新为D1时,则事件A发生的概率为P(A|D1),不同的数据集预测事件A发生的概率不同。贝叶斯学派评估事件A发生的概率会引入先验概率和后验概率两个概念,贝叶斯定理是搭建先验概率和后验概率的桥梁。
贝叶斯学派概率定义包含以下三个要点:
- 事件A发生的概率是变化的,并非常数;
- 事件A发生的概率是在特定数据集下的条件概率;
- 事件A发生的概率是后验概率,且事件A发生的先验概率已给定。
贝叶斯学派的难点在于如何设置合理反映事件A发生的先验概率,不同的先验概率得到的结果不一样。
条件概率
- 设A、B为两个事件,且P(A)>0,则称
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
为在事件A发生的条件下事件B发生的概率。
乘法定理
- 设P(A)>0,则
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(B∣A)P(A)
即事件A、B同时发生的概率等于事件A发生的概率与事件A发生的条件下事件B发生的概率的乘积。
求和定理
- 设P(A)>0,则
P ( A ) = ∑ B P ( A B ) P(A)=\sum_{B}{P(AB)} P(A)=B∑P(AB)
为事件A发生概率的边缘化。
全概率公式
- 事件B发生的所有可能结果B1,B2,…,Bn,事件A发生的概率P(A),则
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) ⇒ P ( A ) = ∑ B P ( A ) P ( A ∣ B ) P(A)=P(A|{B_1})P({B_1}) + P(A|{B_2})P({B_2}) + ... + P(A|{B_n})P({B_n}) \\ \Rightarrow P(A) = \sum_{B}{P(A)P(A|B)} P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)⇒P(A)=B∑P(A)P(A∣B)
贝叶斯定理
P
(
A
,
B
)
=
P
(
B
,
A
)
⇒
P
(
A
∣
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
⇒
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
P
(
B
)
P(A,B) = P(B,A) \\ \Rightarrow P(A|B)P(B) = P(B|A)P(A) \\ \Rightarrow P(A|B) = \frac{P(A)P(B|A)}{P(B)}
P(A,B)=P(B,A)⇒P(A∣B)P(B)=P(B∣A)P(A)⇒P(A∣B)=P(B)P(A)P(B∣A)
- 其中,P(A|B)为已知事件B下A发生的概率,称为后验概率;等式右边分子部分P(A)为事件A发生的概率,称为先验概率。贝叶斯定理是先验概率和后验概率转换的桥梁。