概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方 法,也提供了用于导出新的不确定性 声明(statement)的公理。首先,概率法则告诉我们 AI 系统如何推理,据此我们设计 一些算法来计算或者估算由概率论导出的表达式。其次,我们可以用概率和统计从 理论上分析我们提出的 AI 系统的行为。
越学习愈发觉得,自己的数学功底还是比较薄弱。虽然之前有特意去学习过,包括看过宋浩的概率论,但是真正论起数学推导,还是很少…… 所以还是系统的回顾一下。
随机变量
随机变量(random variable)是可以随机地取不同值的变量。
我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字 母来表示随机变量能够取到的值。例如 :
x
1
和
x
2
都是随机变量
x
可能的取值。
x_1 和 x_2 都是随机变量 x 可能的取值。
x1和x2都是随机变量x可能的取值。
概率分布
概率分布(probability distribution) 用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量和概率质量函数
离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF) 来描述。我们通常用大写字母 P P P 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数,并且读者必须根据随机变量来推断所使用的 P M F PMF PMF,而不是根据函数的名称来推断;
例如: P ( x ) P(x) P(x) 通常和 P ( y ) P(y) P(y) 不一样。
概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。${\rm x} = x $ 的概率用 P ( x ) P(x) P(x) 来表示
- 概率为 1 表示 x = x {\rm x} = x x=x 是确定的
- 概率为 0 表示 x = x {\rm x} = x x=x 是不可能发生的。
为了使得PMF的使用不相互混淆,我们会明确写出随机变量的名称: P ( x = x ) P ({\rm x} = x) P(x=x)。有时我们会先定义一个随机变量,然后用 ∼ ∼ ∼ 符号来说明 它遵循的分布: x ∼ P ( x ) x ∼ P (x) x∼P(x)。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为 联合概率分布(joint probability distribution)。 P ( x = x , y = y ) P ({\rm x} = x, {\rm y} = y) P(x=x,y=y) 表示 x = x {\rm x} = x x=x 和 y = y {\rm y} = y y=y 同时发生的概率。我们也可以简写为 P ( x , y ) P (x, y) P(x,y)。
如果一个函数 P P P 是随机变量 x {\rm x} x 的 P M F PMF PMF,必须满足下面这几个条件:
- P P P 的定义域必须是 x {\rm x} x 所有可能状态的集合。
- ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x ∈ {\rm x}, 0 \le P (x) \le 1 ∀x∈x,0≤P(x)≤1. 不存在比这概率 0 更低的。类似的,不存在比概率 1 更高的。
- ∑ x ∈ x P ( x ) = 1 \sum _{x \in {\rm x}} P (x) = 1 ∑x∈xP(x)=1. 我们把这条性质称之为 归一化的(normalized)。如果没有这条性质,当我们计算很多事件其中之一发生的概率时可能会得到大于 1 的概率。
连续型变量和概率密度函数
当我们研究的对象是连续型随机变量时,我们用 概率密度函数(probability density function, PDF) 来描述它的概率分布。如果一个函数 p p p 是概率密度函数,必须满足下面这几个条件:
- P P P 的定义域必须是 x {\rm x} x 所有可能状态的集合。
- ∀ x ∈ x , P ( x ) ≥ 0 \forall x ∈ {\rm x}, P (x) \ge 0 ∀x∈x,P(x)≥0. 注意,并不要求 p ( x ) ≤ 1 p(x) \le 1 p(x)≤1;
- ∫ p ( x ) d x = 1 \int p(x)dx = 1 ∫p(x)dx=1
概率密度函数
p
(
x
)
p(x)
p(x) 并没有直接对特定的状态给出概率,相对的,它给出了落在
面积为
δ
x
\delta x
δx 的无限小的区域内的概率为
p
(
x
)
δ
x
p(x)\delta x
p(x)δx。
在单变量的例子中, x x x 落在区间 [ a , b ] [a, b] [a,b] 的概率是$\int_{[a,b]} p(x)dx $。
边缘概率
有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为 边缘概率分布(marginal probability distribution)。
对于离散型随机变量 x {\rm x} x 和 y {\rm y} y,并且我们知道 P ( x , y ) P({\rm x},{\rm y}) P(x,y)。我们可以依据下 面的 求和法则(sum rule) 来计算 P ( x ) P({\rm x}) P(x) :
∀ x ∈ x , P ( x = x ) = P ( x = x , y = y ) . \forall x ∈ {\rm x},P({\rm x} = x) = P({\rm x} = x, {\rm y} = y). ∀x∈x,P(x=x)=P(x=x,y=y).
对于连续型变量,我们需要用积分替代求和:
p ( x ) = ∫ p ( x , y ) d y . p(x) = \int p(x, y)dy. p(x)=∫p(x,y)dy.
条件概率
顾名思义,在给定其他事件发生时出现的概率。这种概率叫做条件概率。
我们将给定
x
=
x
,
y
=
y
{\rm x} = x ,{\rm y} = y
x=x,y=y 发生的条件概率记为 $ P({\rm y} = y | {\rm x} = x)$。这个条件概率可以通过下面的公式计算:
P ( y = y ∣ x = x ) = P ( y = y , x = x ) P ( x = x ) (3.5) P({\rm y} = y | {\rm x} = x)= \frac{P({\rm y} = y, {\rm x} = x)}{P({\rm x} = x)} \tag{3.5} P(y=y∣x=x)=P(x=x)P(y=y,x=x)(3.5)
条件概率只在 P ( x = x ) > 0 P ( {\rm x} = x) > 0 P(x=x)>0 时有定义。我们不能计算给定在永远不会发生的事件上
的条件概率。
这里需要注意的是,不要把条件概率和计算当采用某个动作后会发生什么相混 淆。假定某个人说德语,那么他是德国人的条件概率是非常高的,但是如果随机选 择的一个人会说德语,他的国籍不会因此而改变。计算一个行动的后果被称为 干预 查询(intervention query) 。干预查询属于 因果模型(causal modeling) 的范畴,我们不会在本书中讨论。
条件概率的链式法则
任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相
乘的形式:
P ( x ( 1 ) , . . . , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) ∣ x ( 1 ) , . . . , x ( i − 1 ) ) (3.6) P({\rm x}^{(1)},...,{\rm x}^{(n)})=P({\rm x}^{(1)})\prod_{i=2}^nP({\rm x}^{(i)} | {\rm x}^{(1)},...,{\rm x}^{(i - 1)}) \tag{3.6} P(x(1),...,x(n))=P(x(1))i=2∏nP(x(i)∣x(1),...,x(i−1))(3.6)
直观的为:
P ( X 1 , X 2 , . . . X n ) = P ( X 1 ∣ X 2 , X 3 . . . X n ) ∗ P ( X 2 ∣ X 3 , X 4 . . . X n ) . . . P ( X n − 1 ∣ X n ) ∗ P ( X n ) P(X_1, X_2, ... X_n) = P(X_1 | X_2, X_3 ... X_n) * P(X_2 | X_3, X_4 ... X_n) ... P(X_n-1 | X_n) * P(X_n) P(X1,X2,...Xn)=P(X1∣X2,X3...Xn)∗P(X2∣X3,X4...Xn)...P(Xn−1∣Xn)∗P(Xn)
这个规则被称为概率的 链式法则(chain rule) 或者 乘法法则(product rule) 。 它可以直接从条件概率的定义中得到。例如,使用两次定义可以得到:
P ( a , b , c ) = P ( a ∣ b , c ) P ( b , c ) P(a,b,c) = P(a| b,c) P(b,c) \\ P(a,b,c)=P(a∣b,c)P(b,c)
P ( b , c ) = P ( b ∣ c ) P ( c ) P(b,c) = P(b|c)P(c) P(b,c)=P(b∣c)P(c)
P ( a , b , c ) = P ( a ∣ b , c ) P ( b ∣ c ) P ( c ) . P(a, b, c) = P(a |b, c)P(b | c)P(c). \\ P(a,b,c)=P(a∣b,c)P(b∣c)P(c).
独立性和条件独立性
两个随机变量 x {\rm x} x 和 y {\rm y} y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x {\rm x} x 另一个因子只包含 y {\rm y} y,我们就称这两个随机变量是 相互独立的 (independent):
∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) . \forall x \in {\rm x} ,y \in {\rm y}, p({\rm x} = x, {\rm y} = y) = p({\rm x} = x)p({\rm y} = y). ∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y).
还有一种:在给定 xx 时,条件独立;
如果关于
x
{\rm x}
x 和
y
{\rm y}
y 的条件概率分布对于
z
{\rm z}
z 的每一个值都可以写成乘积的形式, 那么这两个随机变量
x
{\rm x}
x 和
y
{\rm y}
y 在给定随机变量
z
{\rm z}
z 时是 条件独立的(conditionally independent):
∀ x ∈ x , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) . \forall x \in {\rm x} ,y \in {\rm y}, z \in {\rm z}, p({\rm x} = x, {\rm y} = y|{\rm z} = z) = p({\rm x} = x|{\rm z} = z)p({\rm y} = y|{\rm z} = z). ∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z).
我们可以采用一种简化形式来表示独立性和条件独立性: x ⊥ y {\rm x} \bot {\rm y} x⊥y 表示 x {\rm x} x 和 y {\rm y} y 相互 独立, x ⊥ y ∣ z {\rm x} \bot {\rm y} | {\rm z} x⊥y∣z 表示 x {\rm x} x 和 y {\rm y} y 在给定 z {\rm z} z 时条件独立。
期望、方差和协方差
期望
函数 f ( x ) f(x) f(x) 关于某分布 P ( x ) P({\rm x}) P(x) 的 期望(expectation) 或者 期望值(expected value) 是指,当 x x x 由 P P P 产生, f f f 作用于 x x x 时, f ( x ) f(x) f(x) 的平均值。
- 对于离散型随机变量,这可以通过求和得到:
E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) (3.9) \mathbb{E}_{x \thicksim P}[f(x)] = \sum_x P(x)f(x) \tag{3.9} Ex∼P[f(x)]=x∑P(x)f(x)(3.9)
- 对于连续型随机变量可以通过求积分得到:
E x ∼ P [ f ( x ) ] = ∫ P ( x ) f ( x ) d x (3.9) \mathbb{E}_{x \thicksim P}[f(x)] = \int P(x)f(x)dx \tag{3.9} Ex∼P[f(x)]=∫P(x)f(x)dx(3.9)
期望是线性的,其中 α \alpha α 和 β \beta β 不依赖于 x x x。例如:
E x [ α f ( x ) + β g ( x ) ] = α E x [ f ( x ) ] + β E x [ g ( x ) ] \mathbb{E}_x[\alpha f(x) + \beta g(x)] = \alpha \mathbb{E}_x[f(x)] + \beta \mathbb{E}_x[g(x)] Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
方差
方差(variance) 衡量的是当我们对 x x x 依据它的概率分布进行采样时,随机变量 x x x 的函数值会呈现多大的差异:
当方差很小时, f ( x ) f(x) f(x) 的值形成的簇比较接近它们的期望值。方差的 平方根 被称为 标准差(standard deviation)。
协方差
协方差(covariance) 在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:
分析有:
- 协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。
- 如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。
- 如果协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值,
反之亦然。其他的衡量指标如 相关系数(correlation) 将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。
协方差和相关性是有联系的,但实际上是不同的概念。它们是有联系的,因为两个变量如果相互独立那么它们的协方差为零,如果两个变量的协方差不为零, 那么它们一定是相关的。
随机向量 x ∈ R n x \in \mathbb{R}^n x∈Rn 的 协方差矩阵(covariance matrix) 是一个 n × n n × n n×n 的矩阵,并且满足
C o v ( x ) i , j = C o v ( x i , x j ) . Cov(x)_{i,j} = Cov(x_i,x_j). Cov(x)i,j=Cov(xi,xj).
协方差矩阵的对角元是方差:
C o v ( x i , x j ) = V a r ( x i ) . Cov(x_i,x_j) = Var(x_i). Cov(xi,xj)=Var(xi).