第2章 概率概述
2.1 随机变量
- 随机变量 x x x 表示一个不确定的数量,可以是连续或者离散的
- 概率分布 P r ( x ) Pr(x) Pr(x)
- 离散变量的概率分布可以用直方图或Hinton图表示,每个结果有一个正概率,概率之和为1
- 连续变量的概率分布可以用概率密度函数(PDF)来表示,概率密度表示随机变量的取该值的相对可能性,可以取任意正值,然而,PDF的积分总是1
2.2 联合概率
- x x x 和 y y y 的联合概率分布表示记作 P r ( x , y ) Pr(x,y) Pr(x,y),逗号可以理解为“和”,所有结果的概率之和总是1
2.3 边缘化
1.如果
x
x
x 和
y
y
y 连续,并且已知
P
r
(
x
,
y
)
Pr(x,y)
Pr(x,y),那么
P
r
(
x
)
=
∫
P
r
(
x
,
y
)
d
y
Pr(x)=\int Pr(x,y)\text{d}y
Pr(x)=∫Pr(x,y)dy
P
r
(
y
)
=
∫
P
r
(
x
,
y
)
d
x
Pr(y)=\int Pr(x,y)\text{d}x
Pr(y)=∫Pr(x,y)dx
2. 已知
P
r
(
x
,
y
)
Pr(x,y)
Pr(x,y),求
P
r
(
x
)
Pr(x)
Pr(x) 和
P
r
(
y
)
Pr(y)
Pr(y) 称为边缘分布,其他变量的积分/求和过程称为边缘化
3. 计算概率分布
P
r
(
x
)
Pr(x)
Pr(x) 的过程可以解释为计算
x
x
x 的概率分布且忽略(或不考虑)
y
y
y 的值
2.4 条件概率
- 给定 y y y 取 y ∗ y^* y∗ 时 x x x 的条件概率记作 P r ( x ∣ y = y ∗ ) Pr(x|y=y^*) Pr(x∣y=y∗),“|”可以理解为“给定”
- 条件概率
P
r
(
x
∣
y
=
y
∗
)
Pr(x|y=y^*)
Pr(x∣y=y∗) 可以由联合分布中的切片
P
r
(
x
,
y
=
y
∗
)
Pr(x,y=y^*)
Pr(x,y=y∗) 计算出来,切片值表示当
y
=
y
∗
y=y^*
y=y∗ 时
x
x
x 取不同值的相对概率。因为它们仅构成联合分布的一部分,总和不为1,所以计算条件概率分布,需要规范化切片中的总概率
P r ( x ∣ y = y ∗ ) = P r ( x , y = y ∗ ) ∫ P r ( x , y = y ∗ ) = P r ( x , y = y ∗ ) P r ( y = y ∗ ) Pr(x|y=y^*)=\frac{Pr(x,y=y^*)}{\int{Pr(x,y=y^*)}}=\frac{Pr(x,y=y^*)}{Pr(y=y^*)} Pr(x∣y=y∗)=∫Pr(x,y=y∗)Pr(x,y=y∗)=Pr(y=y∗)Pr(x,y=y∗) - 上式简化缩写为
P
r
(
x
∣
y
)
=
P
r
(
x
,
y
)
P
r
(
y
)
Pr(x|y)=\frac{Pr(x,y)}{Pr(y)}
Pr(x∣y)=Pr(y)Pr(x,y)重新整理得:
P r ( x , y ) = P r ( x ∣ y ) P r ( y ) Pr(x,y)=Pr(x|y)Pr(y) Pr(x,y)=Pr(x∣y)Pr(y) - 多变量时,可以不断应用条件概率分布将联合概率分布分解为乘积形式:
P r ( w , x , y , z ) = P r ( w , x , y ∣ z ) P r ( z ) Pr(w,x,y,z)=Pr(w,x,y|z)Pr(z) Pr(w,x,y,z)=Pr(w,x,y∣z)Pr(z)
= P r ( w , x ∣ y , z ) P r ( y ∣ z ) P r ( z ) =Pr(w,x|y,z)Pr(y|z)Pr(z) =Pr(w,x∣y,z)Pr(y∣z)Pr(z)
= P r ( w ∣ x , y , z ) P r ( x ∣ y , z ) P r ( y ∣ z ) P r ( z ) =Pr(w|x,y,z)Pr(x|y,z)Pr(y|z)Pr(z) =Pr(w∣x,y,z)Pr(x∣y,z)Pr(y∣z)Pr(z)
P r ( w ∣ x , y , z ) Pr(w|x,y,z) Pr(w∣x,y,z)表示在给定 x , y , z x,y,z x,y,z 的情况下 w w w 的概率
2.5 贝叶斯公式
- 贝叶斯公式:
P r ( y ∣ x ) = P r ( x ∣ y ) P r ( y ) P r ( x ) Pr(y|x)=\frac{Pr(x|y)Pr(y)}{Pr(x)} Pr(y∣x)=Pr(x)Pr(x∣y)Pr(y)
= P r ( x ∣ y ) P r ( y ) ∫ P r ( x , y ) d y =\frac{Pr(x|y)Pr(y)}{\int Pr(x,y)\text{d}y} =∫Pr(x,y)dyPr(x∣y)Pr(y)
= P r ( x ∣ y ) P r ( y ) ∫ P r ( x ∣ y ) P r ( y ) d y =\frac{Pr(x|y)Pr(y)}{\int Pr(x|y)Pr(y)\text{d}y} =∫Pr(x∣y)Pr(y)dyPr(x∣y)Pr(y) - 后验概率:
P
r
(
y
∣
x
)
Pr(y|x)
Pr(y∣x),代表给定
x
x
x 下
y
y
y 的概率
先验概率: P r ( y ) Pr(y) Pr(y),代表在考虑 x x x 之前 y y y 的概率
似然性: P r ( x ∣ y ) Pr(x|y) Pr(x∣y)
证据: P r ( x ) Pr(x) Pr(x) - 在计算机视觉中,常用条件概率 P r ( x ∣ y ) Pr(x|y) Pr(x∣y) 表示变量 x x x 和 y y y 的关系,然而我们主要感兴趣的是变量 y y y,因此,概率 P r ( y ∣ x ) Pr(y|x) Pr(y∣x) 就用贝叶斯公式来计算
2.6 独立性
- 如果从变量
x
x
x 不能得到变量
y
y
y 的任何信息(反之亦然),就称
x
x
x 和
y
y
y 是独立的,可以表示为:
P r ( x ∣ y ) = P r ( x ) Pr(x|y)=Pr(x) Pr(x∣y)=Pr(x)
P r ( y ∣ x ) = P r ( y ) Pr(y|x)=Pr(y) Pr(y∣x)=Pr(y)
代入条件概率公式中可得:
P r ( x , y ) = P r ( x ∣ y ) P r ( y ) = P r ( x ) P r ( y ) Pr(x,y)=Pr(x|y)Pr(y)=Pr(x)Pr(y) Pr(x,y)=Pr(x∣y)Pr(y)=Pr(x)Pr(y)
2.7 期望
- 如果从概率分布中抽取大量样本,计算每个样本的函数,并求这些值的平均值,其结果就是期望。在离散及连续情况下,一个随机变量
x
x
x 的函数
f
[
⋅
]
f[\cdot]
f[⋅] 的期望值分别定义为
E [ f [ x ] ] = ∑ x f [ x ] P r ( x ) E[f[x]]=\sum_x f[x]Pr(x) E[f[x]]=x∑f[x]Pr(x)
E [ f [ x ] ] = ∫ f [ x ] P r ( x ) d x E[f[x]]=\int f[x]Pr(x)\text{d}x E[f[x]]=∫f[x]Pr(x)dx - 特殊函数的期望
- 期望的四条性质
E [ k ] = k E[k]=k E[k]=k
E [ k f [ x ] ] = k E [ f [ x ] ] E[kf[x]]=kE[f[x]] E[kf[x]]=kE[f[x]]
E [ f [ x ] + g [ x ] ] = E [ f [ x ] ] + E [ g [ x ] ] E[f[x]+g[x]]=E[f[x]]+E[g[x]] E[f[x]+g[x]]=E[f[x]]+E[g[x]]
E [ f [ x ] g [ y ] ] = E [ f [ x ] ] E [ g [ y ] ] ( 若 x 和 y 独 立 ) E[f[x]g[y]]=E[f[x]]E[g[y]](若x和y独立) E[f[x]g[y]]=E[f[x]]E[g[y]](若x和y独立)
备注
推荐研读一本关于概率的书籍,例如,Papoulis(1991)。从机器学习的视角学习概率,参考 Bishop(2006)第1章。