统计机器学习-概率论导论
本节内容延续第一节的内容,进行简短回顾,并对概率论中概率测度相关知识进行介绍。
一. 复习
在采用贝叶斯派的方法进行参数估计(parameter estimate)过程中,对某个统计模型中的参数θ进行估计时,我们首先对θ的分布进行了人为的限定,如符合高斯分布、Gamma分布或Beta分布。
由贝叶斯公式: P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X , θ ) P(\theta|X) =\frac{P(X|\theta)P(\theta)}{P(X, \theta)} P(θ∣X)=P(X,θ)P(X∣θ)P(θ)可知,若使P(θ|X)得到最大值,需得到等式右侧的三个概率,再进一步计算得到θ的期望E[θ]。
观察等式右侧,首先先验P(θ)人为限定。限定θ分布后,似然P(X|θ)可得到表达式。然而,位于分母部分的联合分布P(X, θ)的计算在实践中往往出现困难。对分母部分(上一节我提到可对该边缘似然进行积分,但实际情况往往无法积分得到)常采用抽样的方法进行估计,所用方法即如雷贯耳的马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC)。
二. 参数方法和非参数方法
在进行统计学入门时,大家往往会遇到两类统计学假设检验方法,即参数方法(parametric)和非参数(nonparametric)方法。
简单来讲,参数方法即有明确的固定数量的参数,而非参数方法则是根据训练数据集中数据的不同,可能具有不同数量的参数,而非没有参数。
比如:
在进行logistic regression时,根据sigmoid function的形式:
h ( θ ) = 1 1 + e − X T θ h(\theta)=\frac{1}{1 + e^{-X^{T}\theta}} h(θ)=1+e−XTθ1
参数向量θ数量为1,不会因为X中数据条目的增加而发生改变。该方法即为参数方法。
然而,
在K近邻算法中,每当更新聚类中心(cluster centroid)时,都需要计算与当前数据集中各个点的距离,那么该算法的参数可认为与样本点的个数相同。因此,该方法为非参数方法。
最后需要说明,参数方法和非参数方法往往重叠,即参数方法若无法应用时,可以采用非参数方法进行假设检验、区间估计等。
三. 测度空间的建立
概率论经苏联的伟大数学家柯尔莫哥洛夫的公理化后,至今已经成为了重要的数学分支。近年的菲尔兹奖也多次奖励给高等概率论相关方向的数学家。
在学习统计机器学习过程中,并不需要大量应用公理化概率论的相关方法,但每个学习者都应该了解相关的知识,当后期处理一些较复杂的问题时,有相应数学知识的支持帮助很大。
下面逐步介绍本节课程中老师介绍的概率论相关知识:
-
样本空间(sample space)和事件(event):样本空间就是所有试验(trial)结果构成的集合,常表示为Ω;事件则是样本空间的一个子集(subset),即
A i ⊆ Ω A_{i} \subseteq \Omega Ai⊆Ω -
进一步我们给出以下定理(事件列):
若Ai为单调递增的事件列,则有:
A 1 ⊆ A 2 ⊆ . . . ⊆ A n A_{1} \subseteq A_{2} \subseteq ... \subseteq A_{n} A1⊆A2⊆...⊆An
单调递增事件列的极限有:
lim n → ∞ A n = ⋃ i = 1 ∞ A i \lim_{n\to \infty}A_{n} = \bigcup_{i=1}^{\infty}A_{i} n→∞limAn=i=1⋃∞Ai
同理,单调递减事件列也采用类似方法构造。
为什么我们要构造以上的单增和单减事件列?
事实上,在一般应用概率论知识时,我们并不需要考虑极限情况下的概率问题,甚至往往针对某个事件,我们可以明确地计算出其发生的概率大小。
然而,如果真正面对一个极其复杂的概率问题时,我们还是否可以计算?比如如下问题:
- 李明约张芳在公园见面,张芳会在第二天的早8点到8点半之间到达,在该时段内,每时每刻其到达的可能性均相同。那么张芳在8点15分13秒到14秒之间到达公园的概率是多少?
- 继续缩小时段,在8点15分13.1秒到8点15分13.2秒之间到达的概率是多少?
- 这个时段无限缩小下去,在什么情况下概率无法计算?
可见,仅根据当前的知识,上述问题(3)完全无法回答。为了处理概率论不严谨的问题,以集合论为基础的现代概率论诞生。而上述介绍的事件列,在集合论中即为集合列,构造单调递增或递减序列,进而处理极限问题是从数学分析到概率论的一贯通用方法。
介绍至此,我们有了处理“事件列”的工具。然而,“事件”似乎仍没有被良好定义。例如,张芳在某一时刻到达公园是否是一个事件?我们的样本空间是8点到8点半这一个时段,从中取出一个点,应当构成一个事件,那么为什么这个事件的概率为0(这个还没有说明,不过某时刻到达的概率确实为0)?于是,数学家继续结合集合论和实分析的方法,对概率空间进行了定义。下面我们逐步介绍。
- σ域(σ-field)
σ域(或称σ代数)由样本空间Ω生成。对于σ域有如下定义:
A 为 σ − f i e l d \mathcal{A}为\sigma-field A为σ−field i.f.f. 以下三条:
ϕ ∈ A ( 1 ) I f A ∈ A ⇒ A c ∈ A ( 2 ) I f A i ∈ A ⇒ ⋃ i = 1 ∞ A i ∈ A ( 3 ) \begin{aligned} \phi \in \mathcal{A} \qquad\qquad\qquad(1) \\ If \ A \in \mathcal{A}\ \quad \Rightarrow\quad \ A^{c} \in \mathcal{A}\qquad(2) \\ If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcup_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(3) \end{aligned} ϕ∈A(1)If A∈A ⇒ Ac∈A(2)If Ai∈A⇒i=1⋃∞Ai∈A(3)
由De Morgan律和以上第2、3条性质,由可列可加性进一步导出:
I
f
A
i
∈
A
⇒
⋂
i
=
1
∞
A
i
∈
A
(
4
)
If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcap_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(4)
If Ai∈A⇒i=1⋂∞Ai∈A(4)在定义了σ-域后,我们得到了可测空间
(
Ω
,
A
)
(\Omega, \mathcal{A})
(Ω,A),至此还有点摸不到头脑,但构造可测空间的目的是让处于某个
(
Ω
,
A
i
)
(\Omega, \mathcal{A_{i}})
(Ω,Ai)中的事件
A
j
(
∈
A
i
)
A_{j}(\in\mathcal{A_{i}})
Aj(∈Ai),都可以采用某种度量方法进行度量,上文中所提到的事件是否可以计算概率也就获得了解决的可能性。
于是,最后一步也就呼之欲出了,即:用怎样的度量方法,对事件进行度量?
- 测度(measure)
当有可测空间 ( Ω , A ) (\Omega, \mathcal{A}) (Ω,A)后,可进一步定义测度,其满足下列三条性质:
μ ( A i ) ∈ [ 0 , ∞ ) ( 1 ) μ ( ϕ ) = 0 ( 2 ) I f A i ∩ A j = 0 w . r . t ∀ i ≠ j ⇒ μ ( ∩ A i ) = Σ μ ( A i ) ( 3 ) \begin{aligned} \mu (A_{i}) \in [0, \infty)\qquad (1)\\ \mu (\phi) = 0 \qquad \qquad (2) \\ If \quad A_{i} \cap A_{j} = 0 \quad w.r.t \quad \forall i \neq j \qquad \quad \\ \Rightarrow \mu (\cap A_{i}) = \Sigma \mu (A_{i}) \qquad (3) \end{aligned} μ(Ai)∈[0,∞)(1)μ(ϕ)=0(2)IfAi∩Aj=0w.r.t∀i=j⇒μ(∩Ai)=Σμ(Ai)(3)
上述第三条即著名的“可列可加性”。
至此,得以构造出三元结构 ( Ω , A , μ ) (\Omega, \mathcal{A}, \mu) (Ω,A,μ),为测度空间。因此,通过测度,我们可将任一事件映射到一实数值。
进一步,若 μ ( A i ) ∈ [ 0 , 1 ] \mu(A_{i})\in[0, 1] μ(Ai)∈[0,1], 我们将其称为概率测度,即任一事件都可映射到为0~1之间的一个实数值,也就是我们常见的概率大小。概率测度常用P(·)表示。
此外,该节还举例了Borel集、勒贝格测度、计数测度等知识。可自行学习,不影响之后的课程。