考察一下极大似然估计,这是数理统计里面经典的参数估计模型。
设有样本
(xi,yi,i=1..n)
,假设模型为
y=wx+b+ε,ε∼N(0,σ2)
。要估计参数
w,b
把模型改变一下就有:
改记函数: L(y,x;w,b)=−ln(ϕ(yi,xi;w,b))
定义似然函数:
最小化 l(y⃗ ,x⃗ ;w,b) 就得到了 w、b 的参数值 w^、b^ ,于是我们得到了一个统计模型 y=w^x+b^ .
考察一下这个模型,它是一个最优化模型:
这里并不是要介绍极大似然方法的解法,而是更一般的来看看这个最优化模型:
1、 X,Y 是两个随机变量,为了方便描述以后就统一记为 X ;
2、
3、目标函数是 1n∑ni=1L(xi;θ) ,是 L(x;θ) 在样本上的均值。
在机器学习领域,将
L(x;θ)
称为损失函数,它是一簇函数,一般而言,它度量模型因变量预测值与观测量之间差异的损失,损失函数包含了模型信息包括模型参数,并且通常要求是非负的;将
E(L(x;θ))
称为期望风险,记为
R(θ)
,要估计期望风险必须知道
X
的分布函数,但是通常这是未知的。将
一般的统计学习或者机器学的问题是求解最小化经验风险: infθ∈ΛRemp(Xn,θ) ,求得 θ ,这一方法称为经验风险最小化原则(ERP原则).
仿照大数定理改写一下极大似然估计的目标函数,希望下式成立,这样机器学习到的参数是一致的:
上面的表达式损失函数集 {L(x;θ)|θ∈Λ} 如果只有有限个元素,就将回到以前的普通的大数定理,这个时候上式必然成立。若损失函数集有无穷上多个元素,如下问题还成立吗?什么条件下成立?
如果问号不能去掉,机器可能学习到的是错误的参数。
定义:若 infθ∈ΛRemp(Xn,θ)→pinfθ∈ΛR(θ) ,称为ERP原则一致的。
还有一种情况,若函数集 {L(x;θ)|θ∈Λ} 包含这样一个函数 ϕ(x) , infθ∈ΛL(x;θ)>ϕ(x) ,则必然导致
定义:对函数集 {L(x;θ)|θ∈Λ} 定义其子集:
Λ(c)={a∣∫L(x;a)dF(x)>c;a∈Λ}
如果对函数集的任意非空子集 Λ(c),c∈R 都有:infθn∈Λ(c)Remp(Xn,θ)→pinfθ∈Λ(c)R(θ)
成立,则称ERM原则对函数集 {L(x;θ)|θ∈Λ} 和概率分布函数是非平凡一致的。说句废话,非平凡一致排除了函数集中个别函数外,仍然能保持ERP原则是一致的。
下文中如果提到ERP原则一致的,都指非平凡的。
那么什么条件下ERP方法是一致的呢?显然首先得要求 |∫L(x;θ)dF(x)|<∞ 真实风险发散了就什么都不要谈了。
Vapnik和Chervonenkis 两位大神在1989年就为我们找到了ERP原则是一致的得充要条件。
关键定理: 设函数集满足 |∫L(x;θ)dF(x)|<∞ ,则有ERP原则一致性的充要条件是:
经验风险 Rexp(Xn,θn) 在函数集 {L(x;θ)|θ∈Λ} 上如下意义的收敛于实际风险 R(θ) :
limn→∞P(supθ∈Λ(R(θ)−Remp(Xn,θ))>ε)=0;∀ε>0(2)
有没有嗅到大数定理的影子?关键定理告诉我们要保证学习一致性,先要保证
(2)
成立,而
2
左边是函数集
因此泛函上的大数定理是统计学习理论基础,这次真的升级了,从抽样调查升级到了统计学习。
要想直观的看清关键定理,先弄明白三件事:
1、 R(θ)=∫L(x;θ)dF(x)<∞ ,中的概率分布 F(x) 只要求保证 R(θ)<∞ ,没有其他要求;
2、对于任意一个指定的 F(x) , R(θ) 是参数 θ 的函数,不是随机变量;
3、 Remp(Xn,θ)=1n∑ni=1L(xi;θ) 是随机变量,因为 xi 是随机变量。
关键定理证明
先做些准备工作:
由于 R(θ)<∞ ,可以假定 a≤R(θ)≤b ,对 a,b 做如下分割:
令: a1=a,am=b,ai+1−ai<ε2,i=1..m−1
根据有限覆盖定理,存在 m<∞ .满足分割要求
这种分割之下,有:
Λ(b)=Λ(an)⊂..Λ(ak+1)⊂Λ(ak)..Λ(a1)=Λ(a)=Λ
定义: Λ^k=Λ(ak)/Λ(ak+1),Λ^m=Λm
Λ^k={θ|θ∈Λ(ak+1),θ∉Λ(ak)},k=1..m−1
则有:
1、 Λ^k∩Λ^j=ϕ,∀i≠j;∪mi=1Λ^i=Λ
2、 supθ∈Λ^kR(θ)=ak+1,infθ∈Λ^kR(θ)=ak
3、 supθ∈Λ^kR(θ)≤infθ∈Λ(ak+1)R(θ)=ak+1<ak+ε2=infθ∈Λ(ak)R(θ)+ε2(2)
注意 (2) 式下文证明中两次用到,这是sup 转变为inf的关键。“ ⇒: ”
对于任意的 ak ,定义事件 Tk:infθ∈Λ(ak)Rexp(Xn,θ)<infθ∈Λ(ak)R(θ)−ε2
ERP原则一致性要求,有 infθ∈Λ(ak)Rexp(Xn,θ)→pinfθ∈Λ(ak)R(θ)
得到 limn→∞P(Tk)=0令 T=∪ni=1Ti ,则有 limn→∞P(T)≤∑ni=1limn→∞P(Tk)=0
定义事件 A:supθ∈Λ(R(θ)−Remp(Xn,θ))>ε 发生了,
则必然存在某个 Λ^k , θ∗∈Λ^k 使得: supR(θ∗)−infRexp(Xn,θ∗)>ε .
因为:
supR(θ∗)<infθ∈Λ(ak+1)R(θ)<infθ∈Λ(ak)R(θ)+ε2
infRexp(Xn,θ∗)=infθ∈Λ(ak)Rexp(Xn,θ)
因此有
infθ∈Λ(ak)R(θ)+ε2>infθ∈Λ(ak)Rexp(Xn,θ)+ε
这意味着事件 T 发生了,即A事件发生蕴含T事件发生。因此有:
limn→∞P(A)≤limn→∞P(T)=0
即:
limn→∞P(supθ∈Λ(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0
接着证明:” ⇐ :”
若 limn→∞P(supθ∈Λ(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0 成立:
则对于任意的 θ∈Λ^k,i=1..n 都有:
limn→∞P(supθ∈Λ^k(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0
得到:
limn→∞P(supθ∈Λ^kRθ)−infθ∈Λ^kRexp(Xn,θ)>ε)=0;∀ε>0
应用前面提到的 (2) 式得到:
limn→∞P(infθ∈Λ(ak)Rθ)−infθ∈Λ(ak)Rexp(Xn,θ)>ε2)=0;∀ε>0(3)
至此,完成了单边一致的证明。
下面证明严格一致性也成立:
假定时间发生了事件A2: infθ∈Λ(ak)Rexp(Xn,θ)−infθ∈Λ(ak)R(θ)>ε则必有:
infθ∈Λ(ak)Rexp(Xn,θ)>infθ∈Λ(ak)R(θ)+ε=R(θ∗)+ε2,θ∗∈Λ^(ak)得到:
Rexp(Xn,θ∗)>R(θ∗)+ε2,θ∗∈Λ^(ak)
根据大数定理,必然有:
Rexp(Xn,θ∗)→pR(θ∗) ,
所以下式成立:
limn→∞P(infθ∈Λ(ak)Rexp(Xn,θ)−infθ∈Λ(ak)R(θ)>ε)=0;∀ε>0(4)
根据 (3)(4) 两式,有:
limn→∞P(∣∣infθ∈Λ(ak)Rθ)−infθ∈Λ(ak)Rexp(Xn,θ)∣∣>ε2)=0;∀ε>0
即:
infθ∈ΛRexp(Xn,θ)→pinfθ∈ΛRθ)
证明完毕。
在此,我们看到了ERP原则一致性,等价于单边一致收敛:
但是,到此还没有讨论到单边一致收敛对损失函数有何要求。关键定理是整个统计学习理论的重要一步,它将问题进行了转化。
后面从双边一致性开始讨论,双边一致形式如下:
概率 P 是函数集
Vapnik大师由简单到复杂,一步一步证明,其中知识贯通了概率论,测度论,展示了精湛的分析功力,顶礼膜拜一下这位大师。
这位大师将损失函数集 {L(x;θ)|θ∈Λ} 从最简单的有限个元素示性函数集,先拓展到无限元素的示性函数集,然后拓展到有界实数集,最有拓展到无界实数集。最后还完成了有依概率收敛到几乎处处收敛的结果论证。