概率论概述
为什么学习概率
- 因果意味着定理般的必然性,而概率则意味着例外、疑问、缺乏规律性。
- 概率论特别能够容忍无法解释的例外情况,因此它使我们能够专注于因果关系的主要问题,而不必处理这类矛盾。
- 容忍例外只解决了与因果关系相关的部分问题。剩下的问题包括推断、干预、识别、分歧、混杂、反事实以及解释。
概率论的基本概念
- 概率的贝叶斯解释:根据概率描述对事件的信念程度,并使用数据来增强、更新或削弱这些信念程度。
- P ( A ∣ K ) P(A|K) P(A∣K)代表一个人在给定知识体系 K K K的条件下对 A A A所描述事件的主观信念。在定义概率表达式时,我们通常简单写成 P ( A ) P(A) P(A),忽略符号 K K K。然而,当背景信息发生变化时,我们需要明确地识别解释信念的假定,并明确地表示 K K K(或 K K K的部分元素)
- 在贝叶斯形式化中,信念测度服从概率演算的三个基本公理:
0 ≤ P ( A ) ≤ 1 P ( 确定命题 ) = 1 如果 A 与 B 互斥,则 P ( A 或 B ) = P ( A ) + P ( B ) \begin{gather*} 0 \leq P(A) \leq 1\\ P(\text{确定命题}) = 1\\ 如果A与B互斥,则P(A或B) = P(A)+P(B)\\ \end{gather*} 0≤P(A)≤1P(确定命题)=1如果A与B互斥,则P(A或B)=P(A)+P(B) - 第3条公理表明,任何一组事件的信念是其非相交成分的信念的总和。因此对应的概率可写为:
P ( A ) = P ( A , B ) + P ( A , ¬ B ) P(A) = P(A,B) + P(A,\neg B) P(A)=P(A,B)+P(A,¬B)
其中 P ( A , B ) P(A,B) P(A,B)是 P ( A ∧ B ) P(A \wedge B) P(A∧B)的简写, ¬ \neg ¬表示逻辑“非”, ∧ \wedge ∧表示逻辑“与”。 - 如果
B
i
(
i
=
1
,
2
,
⋯
,
n
)
B_i(i= 1,2,\cdots,n)
Bi(i=1,2,⋯,n)是一组完备的互斥命题(称为划分或变量),那么
P
(
A
)
P(A)
P(A)可通过对
P
(
A
,
B
i
)
(
i
=
1
,
2
,
⋯
,
n
)
P(A,B_i)(i= 1,2,\cdots,n)
P(A,Bi)(i=1,2,⋯,n)求和得到:
P ( A ) = ∑ i P ( A , B i ) P(A) = \sum_{i}P(A,B_i) P(A)=i∑P(A,Bi)
该式被称为“全概率公式”。在所有B_i上的概率求和操作也称为“边缘化于B”,获得的概率 P ( A ) P(A) P(A)称为A的边缘概率。 - 贝叶斯形式化的基本表达式是关于条件概率的陈述,例如, P ( A ∣ B ) P(A|B) P(A∣B)刻画了在 B B B完全已知的条件下对 A A A的信念。
- 如果 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A),那么我们认为 A A A与 B B B独立。因为在获悉B的事实后,我们对于A的信念并没有改变。
- 如果 P ( A ∣ B , C ) = P ( A ∣ C ) P(A|B,C) = P(A|C) P(A∣B,C)=P(A∣C),那么我们认为A与B在给定C时条件独立,即一旦我们了解C,那么获悉B将不能改变我们对于A的信念。
- 传统做法利用联合事件定义条件概率,数学表达式:
P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B) = \frac{P(A,B)}{P(B)} P(A∣B)=P(B)P(A,B) - 与之相反,贝叶斯派学者认为条件关系比联合事件的关系更基本,即更符合人类知识结构的组织。在这种观点中, B B B作为指向知识背景或框架的指针, A ∣ B A|B A∣B表示由 B B B确定的背景中的事件 A A A(例如,在疾病 B B B背景下的症状 A A A)
- 因此,经验知识必然被描述到条件概率陈述中,而对联合事件的信念可通过乘积计算得到:
P ( A , B ) = P ( A ∣ B ) P ( B ) P(A,B) = P(A|B)P(B) P(A,B)=P(A∣B)P(B) - 任何时间A的概率都可通过对任意一组完备的互斥事件
B
i
(
i
=
1
,
2
,
⋯
,
n
)
B_i(i= 1,2,\cdots,n)
Bi(i=1,2,⋯,n)取条件,然后求和计算得到:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A) = \sum_{i}P(A|B_i)P(B_i) P(A)=i∑P(A∣Bi)P(Bi) - 上述公式表明任何事件
A
A
A的信念是对所有可能实现
A
A
A的不同方法的信念的加权和。例如,如果想要计算第1个骰子的结果
X
X
X大于第2个骰子的结果
Y
Y
Y的概率,我们可以在
X
X
X的所有可能值上对事件
A
A
A:
X
>
Y
X>Y
X>Y取条件获得:
P ( A ) = ∑ i = 1 6 P ( Y < X ∣ X = i ) P ( X = i ) = ∑ i = 1 6 P ( Y < i ) 1 6 = ∑ i = 1 6 ∑ j = 1 i − 1 P ( Y = j ) 1 6 = 1 6 ∑ i = 2 6 i − 1 6 = 5 12 P(A) = \sum_{i=1}^{6}P(Y < X | X = i)P(X = i) = \sum^{6}_{i = 1}P(Y<i)\frac{1}{6}=\sum^{6}_{i = 1}\sum_{j=1}^{i-1}P(Y = j)\frac{1}{6} = \frac{1}{6}\sum_{i = 2}^{6}\frac{i-1}{6} = \frac{5}{12} P(A)=i=1∑6P(Y<X∣X=i)P(X=i)=i=1∑6P(Y<i)61=i=1∑6j=1∑i−1P(Y=j)61=61i=2∑66i−1=125 - 乘积法则的另一个有用推广是链式法则公式。该公式表明如果我们有
n
n
n个事件
E
1
,
E
2
,
⋯
,
E
n
E_1,E_2,\cdots,E_n
E1,E2,⋯,En,那么联合事件(
E
1
,
E
2
,
⋯
,
E
n
E_1,E_2,\cdots,E_n
E1,E2,⋯,En)的概率可以写为
n
n
n个条件概率的乘积:
P ( E 1 , E 2 , ⋯ , E n ) = P ( E n ∣ E n − 1 , E n − 2 , ⋯ , E 1 ) ⋯ P ( E 2 ∣ E 1 ) P ( E 1 ) P(E_1,E_2,\cdots,E_n) = P(E_n|E_{n-1},E_{n-2},\cdots,E_1)\cdots P(E_2|E_1)P(E_1) P(E1,E2,⋯,En)=P(En∣En−1,En−2,⋯,E1)⋯P(E2∣E1)P(E1) - 贝叶斯推断的核心在于反演公式:
P ( H ∣ e ) = P ( e ∣ H ) P ( H ) P ( e ) P(H|e) = \frac{P(e|H)P(H)}{P(e)} P(H∣e)=P(e)P(e∣H)P(H)
该公式表明,在获悉证据 e e e的条件下假设 H H H的信念可通过将我们之前的信念 P ( H ) P(H) P(H)与似然性 P ( e ∣ H ) P(e|H) P(e∣H)相乘得到,后者表示如果 H H H为真则 e e e为真的可能性。 P ( H ∣ e ) P(H|e) P(H∣e)称为后验概率, P ( H ) P(H) P(H)称为先验概率。分母 P ( e ) P(e) P(e)可通过令 P ( H ∣ e ) P(H|e) P(H∣e)与 P ( ¬ H ∣ e ) P(\neg H|e) P(¬H∣e)相加为1,得到 P ( e ) = P ( e ∣ H ) P ( H ) + P ( e ∣ ¬ H ) P ( ¬ H ) P(e) = P(e|H)P(H)+P(e|\neg H)P(\neg H) P(e)=P(e∣H)P(H)+P(e∣¬H)P(¬H),它仅仅是一个归一化常数。 - 贝叶斯主观主义者将反演公式看作依据证据更新信念的标准规则。尽管条件概率可以被看作纯粹的数学概念,但贝叶斯派拥护者将其看作语言的基本形式、语言表达“假定我知道 A A A,…”的忠实翻译。
- 相应地,条件概率公式不是一个定义,而是语言表述之间的一种经验可验证关系。条件概率公式断言,获悉 A A A后人们对于 B B B的信念不会低于获悉 A A A之前人们对于 A ∧ B A \wedge B A∧B的信念。此外这两个信念的比率会依据 [ P ( A ) ] − 1 [P(A)]^{-1} [P(A)]−1的程度成比例增加,而 [ P ( A ) ] − 1 [P(A)]^{-1} [P(A)]−1与 A A A的获悉程度相关。
- 反演公式的重要性在于,它利用直接由经验知识获得的数值表达度量 P ( H ∣ e ) P(H|e) P(H∣e),这是一个通常很难估计的度量。
- 联合分布函数很少可以明确刻画。在连续随机变量的分析中,分布函数由代数表达式给出,例如描述正态分布或指数分布的表达式。对于离散变量,已经发展了间接表示方法,即从部分变量之间的局部关系中推断总体分布。
预测支持与诊断支持结合
- 贝叶斯规则(反演公式)的本质是使用概率和似然比这样的参数来方便地描述问题,将反演公式除以其互补式
P
(
¬
H
∣
e
)
P(\neg H|e)
P(¬H∣e),可以得到
P ( H ∣ e ) P ( ¬ H ∣ e ) = P ( e ∣ H ) P ( e ∣ ¬ H ) P ( H ) P ( ¬ H ) \frac{P(H|e)}{P(\neg H|e)} = \frac{P(e|H)}{P(e|\neg H)}\frac{P(H)}{P(\neg H)} P(¬H∣e)P(H∣e)=P(e∣¬H)P(e∣H)P(¬H)P(H)
定义 H H H的先验概率为:
O ( H ) = P ( H ) P ( ¬ H ) = P ( H ) 1 − P ( H ) O(H) = \frac{P(H)}{P(\neg H)} = \frac{P(H)}{1-P(H)} O(H)=P(¬H)P(H)=1−P(H)P(H)
H H H的似然比为:
L ( e ∣ H ) = P ( H ∣ e ) P ( e ∣ ¬ H ) L(e|H) = \frac{P(H|e)}{P(e|\neg H)} L(e∣H)=P(e∣¬H)P(H∣e)
后验概率:
O ( H ∣ e ) = P ( H ∣ e ) P ( ¬ H ∣ e ) O(H|e) = \frac{P(H|e)}{P(\neg H|e)} O(H∣e)=P(¬H∣e)P(H∣e)
由如下乘积得到:
O ( H ∣ e ) = L ( e ∣ H ) O ( H ) O(H|e) = L(e|H)O(H) O(H∣e)=L(e∣H)O(H) - 贝叶斯规则说明,基于先验知识 K K K和观察到的证据 e e e,我们对于假设 H H H的总体信念强度应该是两个因素的乘积:先验概率 O ( H ) O(H) O(H)和似然比 L ( e ∣ H ) L(e|H) L(e∣H)。第一个因子衡量的是仅通过背景知识获得的对 H H H的预测性支持或预期性支持,而第二个因子表示实际观察到的证据对 H H H的诊断性支持或回顾性支持。
- 严格来说,似然比 L ( e ∣ H ) L(e|H) L(e∣H)可能依赖与隐形知识库 K K K的内容。然而,贝叶斯方法的影响主要来自于事实:在因果推理中,关系 P ( e ∣ H ) P(e|H) P(e∣H)是非常局部的关系——由于 e e e通常不依赖于知识库中的其他命题,因此假定 H H H为真,那么 e e e的概率可以很自然的被估计出来。
- 条件概率 P ( e ∣ H ) P(e|H) P(e∣H)而非 P ( H ∣ e ) P(H|e) P(H∣e)是贝叶斯分析中的原子关系。前者具有类似逻辑规则的模块化特征,传达了类似“如果 H H H则 e e e”的具有逻辑化的信念强度,这是一种不管知识库中存在什么其他规则或事实都能成立的信念。
例题
想象一下,有一天晚上你被防盗警报器的尖锐声音吵醒。你对于发生盗窃的信念强度是多少?为了便于说明,我们做出以下判断:(a)企图盗窃触发警报系统的可能性为95%,即 P ( 警报 ∣ 盗窃 ) = 0.95 P(警报|盗窃) = 0.95 P(警报∣盗窃)=0.95;(b)基于已知的错误警报次数,由企图盗窃之外的因素触发警报系统的可能性为1%,即 P ( 警报 ∣ 非盗窃 ) = 0.01 P(警报|非盗窃) = 0.01 P(警报∣非盗窃)=0.01;(c)以往的犯罪模式表明,某所房子在某天晚上被盗的可能性为万分之一,即 P ( 盗窃 ) = 0.0001 P(盗窃) = 0.0001 P(盗窃)=0.0001;
- 整合这些假定,我们得到:
O ( 盗窃 ∣ 警报 ) = L ( 警报 ∣ 盗窃 ) O ( 盗窃 ) = 0.95 0.01 × 1 0 − 4 1 − 1 0 − 4 = 0.0095 O(盗窃|警报) = L(警报|盗窃)O(盗窃) = \frac{0.95}{0.01} \times \frac{10^{-4}}{1-10^{-4}} = 0.0095 O(盗窃∣警报)=L(警报∣盗窃)O(盗窃)=0.010.95×1−10−410−4=0.0095
依据:
O ( A ) = P ( A ) P ( ¬ A ) 1 + O ( A ) = P ( A ) + P ( ¬ A ) P ( ¬ A ) O ( A ) 1 + O ( A ) = P ( A ) P ( ¬ A ) ⋅ P ( ¬ A ) P ( A ) + P ( ¬ A ) = P ( A ) P ( A ) + P ( ¬ A ) = P ( A ) O(A) = \frac{P(A)}{P(\neg A)}\\ 1+O(A) = \frac{P(A)+P(\neg A)}{P(\neg A)}\\ \frac{O(A)}{1+O(A)} = \frac{P(A)}{P(\neg A)} \cdot \frac{P(\neg A)}{P(A) + P(\neg A)} = \frac{P(A)}{P(A) + P(\neg A)} = P(A)\\ O(A)=P(¬A)P(A)1+O(A)=P(¬A)P(A)+P(¬A)1+O(A)O(A)=P(¬A)P(A)⋅P(A)+P(¬A)P(¬A)=P(A)+P(¬A)P(A)=P(A)
得到:
P ( 盗窃 ∣ 警报 ) = 0.0095 1 + 0.0095 = 0.00941 P(盗窃|警报) = \frac{0.0095}{1+0.0095} = 0.00941 P(盗窃∣警报)=1+0.00950.0095=0.00941 - 因此,由警报证据获得的对盗窃假设的回顾性支持将盗窃可能的信念强度几乎提高了一百倍,从 1 10000 \frac{1}{10000} 100001提升到 94.1 10000 \frac{94.1}{10000} 1000094.1。考虑到系统几乎每三个月就会触发一次误报。盗窃信念仍低于1%。
随机变量与期望
- 本书的变量指的是属性、度量或问题,从特定域取得一些可能的结果或值。
- 如果我们对变量的可能取值赋予某种信念(即概率),那么我们称这个变量为随机变量。
- 继续使用缩写
P
(
x
)
P(x)
P(x)表示概率
P
(
X
=
x
)
P(X = x)
P(X=x),
x
∈
D
x
x \in D_x
x∈Dx。同样,如果
Z
Z
Z代表集合
{
X
,
Y
}
\{X,Y\}
{X,Y},那么
P
(
z
)
P(z)
P(z)定义为(
≜
\triangleq
≜是定义的意思):
P ( z ) ≜ P ( Z = z ) = P ( X = x , Y = y ) , x ∈ D x , y ∈ D y P(z) \triangleq P(Z = z) = P(X=x,Y=y),x \in D_x,y \in D_y P(z)≜P(Z=z)=P(X=x,Y=y),x∈Dx,y∈Dy
当随机变量 X X X的值是实数时, X X X称为实随机变量, X X X的均值或期望值定义为:
E ( X ) ≜ ∑ x x P ( x ) E(X) \triangleq \sum_{x}xP(x) E(X)≜x∑xP(x) - 给定事件
Y
=
y
Y = y
Y=y,
X
X
X的条件均值定义为:
E ( X ∣ y ) ≜ ∑ x P ( x ∣ y ) E(X|y) \triangleq \sum_{x}P(x|y) E(X∣y)≜x∑P(x∣y)
关于 X X X的函数 g g g的期望定义为:
E [ g ( X ) ] ≜ ∑ x g ( x ) P ( x ) E[g(X)] \triangleq \sum_{x}g(x)P(x) E[g(X)]≜x∑g(x)P(x) - 函数
g
(
X
)
=
(
X
−
E
(
X
)
)
2
g(X) = (X-E(X))^2
g(X)=(X−E(X))2尤其受到关注,它的期望称为
X
X
X的方差,表示为
σ
X
2
\sigma_X^2
σX2:
σ X 2 ≜ E [ ( X − E ( X ) ) 2 ] \sigma_X^2 \triangleq E[(X-E(X))^2] σX2≜E[(X−E(X))2] - 变量
X
X
X和
Y
Y
Y的函数g(X,Y)的期望需要用到联合概率P(x,y),定义如下:
E [ g ( X , Y ) ] ≜ ∑ x , y g ( x , y ) P ( x , y ) E[g(X,Y)] \triangleq \sum_{x,y}g(x,y)P(x,y) E[g(X,Y)]≜x,y∑g(x,y)P(x,y)
条件独立与图
-
(
X
⊥
⊥
Y
∣
Z
)
(X \perp \!\!\! \perp Y|Z)
(X⊥⊥Y∣Z)表示给定
Z
Z
Z的
X
X
X与
Y
Y
Y的条件独立,因此:
( X ⊥ ⊥ Y ∣ Z ) p 当且仅当 P ( x ∣ y , z ) = P ( x ∣ z ) (X \perp \!\!\! \perp Y|Z)_p\ \ 当且仅当\ \ P(x|y,z) = P(x|z) (X⊥⊥Y∣Z)p 当且仅当 P(x∣y,z)=P(x∣z)
对于所有满足 P ( y , z ) > 0 P(y,z)>0 P(y,z)>0的值 x , y , z x,y,z x,y,z。无条件独立(也称为边缘独立)表示为 ( X ⊥ ⊥ Y ∣ ∅ ) (X \perp \!\!\! \perp Y|\varnothing) (X⊥⊥Y∣∅)。即:
( X ⊥ ⊥ Y ∣ ∅ ) 当且仅当 P ( x ∣ y ) = P ( x ) 只要 P ( y ) > 0 (X \perp \!\!\! \perp Y|\varnothing)\ \ 当且仅当\ \ P(x|y) = P(x)\ \ 只要P(y)>0 (X⊥⊥Y∣∅) 当且仅当 P(x∣y)=P(x) 只要P(y)>0 - 注意, ( X ⊥ ⊥ Y ∣ Z ) (X \perp \!\!\! \perp Y|Z) (X⊥⊥Y∣Z)意味着任何变量对 V i ∈ X V_i \in X Vi∈X与 V j ∈ Y V_j \in Y Vj∈Y的条件独立,但反之未必为真。
- 条件独立关系
(
X
⊥
⊥
Y
∣
Z
)
(X \perp \!\!\! \perp Y|Z)
(X⊥⊥Y∣Z)满足的部分性质:
对称性: ( X ⊥ ⊥ Y ∣ Z ) ⇒ ( Y ⊥ ⊥ X ∣ Z ) (X \perp \!\!\! \perp Y|Z)\Rightarrow(Y \perp \!\!\! \perp X|Z) (X⊥⊥Y∣Z)⇒(Y⊥⊥X∣Z)
分解性: ( X ⊥ ⊥ Y W ∣ Z ) ⇒ ( X ⊥ ⊥ Y ∣ Z ) (X \perp \!\!\! \perp YW|Z)\Rightarrow(X \perp \!\!\! \perp Y|Z) (X⊥⊥YW∣Z)⇒(X⊥⊥Y∣Z)
弱联合性: ( X ⊥ ⊥ Y W ∣ Z ) ⇒ ( X ⊥ ⊥ Y ∣ Z W ) (X \perp \!\!\! \perp YW|Z)\Rightarrow(X \perp \!\!\! \perp Y|ZW) (X⊥⊥YW∣Z)⇒(X⊥⊥Y∣ZW)
收缩性: ( X ⊥ ⊥ Y ∣ Z ) & ( X ⊥ ⊥ W ∣ Z Y ) ⇒ ( X ⊥ ⊥ Y W ∣ Z ) (X \perp \!\!\! \perp Y|Z) \& (X\perp \!\!\! \perp W|ZY)\Rightarrow(X \perp \!\!\! \perp YW|Z) (X⊥⊥Y∣Z)&(X⊥⊥W∣ZY)⇒(X⊥⊥YW∣Z)
相交性: ( X ⊥ ⊥ W ∣ Z Y ) & ( ( X ⊥ ⊥ Y ∣ Z W ) ⇒ ( X ⊥ ⊥ Y W ∣ Z ) (X\perp \!\!\! \perp W|ZY)\& ((X\perp \!\!\! \perp Y|ZW)\Rightarrow(X \perp \!\!\! \perp YW|Z) (X⊥⊥W∣ZY)&((X⊥⊥Y∣ZW)⇒(X⊥⊥YW∣Z)
相交性在严格的正概率分布条件下成立。 - 在图中,如果我们将 ( X ⊥ ⊥ Y ∣ Z ) (X \perp \!\!\! \perp Y|Z) (X⊥⊥Y∣Z)解释为“从节点子集X到节点子集Y的任何路径均被节点子集Z阻断”
- 对称性公理表明,无论以何种形式获悉 Z Z Z后,如果 Y Y Y不能告诉我们关于 X X X的任何新信息,那么 X X X也不能告诉我们关于 Y Y Y的任何新信息。
- 分解性公理断言,如果判定两个合并的信息项与 X X X不相关,那么每一个分项也与 X X X不相关。
- 弱联合性公理表明,获悉 W W W与 X X X不相关的信息不能使原来与 X X X不相关的 Y Y Y变得与 X X X相关
- 收缩性公理表明,如果获悉 Y Y Y与 X X X不相关的信息后判定 W W W与 X X X无关,那么获悉 Y Y Y之前 W W W一定与 X X X无关。
- 相交性公理表明,如果获悉 W W W后 Y Y Y与 X X X不相关且获悉 Y Y Y后 W W W与 X X X不相关,那么 W W W与 Y Y Y(或者它们的组合)都与 X X X不相关。