二、机器学习理论起点 ,模型及关键定理

考察一下极大似然估计,这是数理统计里面经典的参数估计模型。
设有样本 xi,yi,i=1..n ,假设模型为 y=wx+b+ε,εN(0,σ2) 。要估计参数 w,b 把模型改变一下就有:

ε=ywxb=f(y,x;w,b)N(0,σ2)
由此得可以到 ε 的分布函数,记为 ϕ(y,x;w,b) .
改记函数: L(y,x;w,b)=ln(ϕ(yi,xi;w,b))
定义似然函数:
l(y⃗ ,x⃗ ;w,b)=1ni=1nL(yi,xi;w,b)

最小化 l(y⃗ ,x⃗ ;w,b) 就得到了 wb 的参数值 w^b^ ,于是我们得到了一个统计模型 y=w^x+b^ .


考察一下这个模型,它是一个最优化模型:

infw,bRl(y⃗ ,x⃗ ;w,b)=infw,bR1ni=1nL(yi,xi;w,b)

这里并不是要介绍极大似然方法的解法,而是更一般的来看看这个最优化模型:
1、 X,Y 是两个随机变量,为了方便描述以后就统一记为 X ;
2、 l(y⃗ ,x⃗ ;w,b)是定义在随机变量上的带参数了函数,其实还是一个随机变量,以后记为 L(x;θ)
3、目标函数是 1nni=1L(xi;θ) ,是 L(x;θ) 在样本上的均值。


在机器学习领域,将 L(x;θ) 称为损失函数,它是一簇函数,一般而言,它度量模型因变量预测值与观测量之间差异的损失,损失函数包含了模型信息包括模型参数,并且通常要求是非负的;将 E(L(x;θ)) 称为期望风险,记为 R(θ) ,要估计期望风险必须知道 X 的分布函数,但是通常这是未知的。将1nni=1L(xi;θ)称为经验风险,记为 Remp(Xn,θ) ,计算经验风险不需要知道分布。

一般的统计学习或者机器学的问题是求解最小化经验风险: infθΛRemp(Xn,θ) ,求得 θ ,这一方法称为经验风险最小化原则(ERP原则).

仿照大数定理改写一下极大似然估计的目标函数,希望下式成立,这样机器学习到的参数是一致的:

infθΛRemp(Xn,θ)pinfθΛR(θ)

上面的表达式损失函数集 {L(x;θ)|θΛ} 如果只有有限个元素,就将回到以前的普通的大数定理,这个时候上式必然成立。若损失函数集有无穷上多个元素,如下问题还成立吗?什么条件下成立?
arg(limn(infθΛRemp(Xn,θ)))=?arg(infθΛ(R(θ))=θ^limnRemp(Xn,θ^)=?R(θ^(1)

如果问号不能去掉,机器可能学习到的是错误的参数。

定义: infθΛRemp(Xn,θ)pinfθΛR(θ) ,称为ERP原则一致的

还有一种情况,若函数集 {L(x;θ)|θΛ} 包含这样一个函数 ϕ(x) infθΛL(x;θ)>ϕ(x) ,则必然导致

limn(infθΛRemp(Xn,θ))=infθΛR(θ
ϕ(x) 取得。这种情况称为 ERP方法平凡一致的,与损失函数集中的其他函数没有关系,所有问题到此为止。 (1) 依赖于函数集中的个别函数,需要刨除这种平凡的情况,因此需要对 {L(x;θ)|θΛ} 做出一些约束。

定义:对函数集 {L(x;θ)|θΛ} 定义其子集:

Λ(c)={aL(x;a)dF(x)>c;aΛ}

如果对函数集的任意非空子集 Λ(c),cR 都有:
infθnΛ(c)Remp(Xn,θ)pinfθΛ(c)R(θ)

成立,则称ERM原则对函数集 {L(x;θ)|θΛ} 和概率分布函数是非平凡一致的。

说句废话,非平凡一致排除了函数集中个别函数外,仍然能保持ERP原则是一致的。
下文中如果提到ERP原则一致的,都指非平凡的

那么什么条件下ERP方法是一致的呢?显然首先得要求 |L(x;θ)dF(x)|< 真实风险发散了就什么都不要谈了。


Vapnik和Chervonenkis 两位大神在1989年就为我们找到了ERP原则是一致的得充要条件。

关键定理: 设函数集满足 |L(x;θ)dF(x)|< ,则有ERP原则一致性的充要条件是:

      经验风险 Rexp(Xn,θn) 在函数集 {L(x;θ)|θΛ} 上如下意义的收敛于实际风险 R(θ) :

limnP(supθΛ(R(θ)Remp(Xn,θ))>ε)=0;ε>0(2)

有没有嗅到大数定理的影子?关键定理告诉我们要保证学习一致性,先要保证 (2) 成立,而 2 左边是函数集{L(x;θ)|θΛ}上的泛函。
因此泛函上的大数定理是统计学习理论基础,这次真的升级了,从抽样调查升级到了统计学习。

要想直观的看清关键定理,先弄明白三件事:
1、 R(θ)=L(x;θ)dF(x)< ,中的概率分布 F(x) 只要求保证 R(θ)< ,没有其他要求;
2、对于任意一个指定的 F(x) , R(θ) 是参数 θ 的函数,不是随机变量;
3、 Remp(Xn,θ)=1nni=1L(xi;θ) 是随机变量,因为 xi 是随机变量。


关键定理证明


先做些准备工作:

由于 R(θ)< ,可以假定 aR(θ)b ,对 a,b 做如下分割:
令: a1=a,am=b,ai+1ai<ε2i=1..m1
根据有限覆盖定理,存在 m< .满足分割要求
这种分割之下,有:
            Λ(b)=Λ(an)..Λ(ak+1)Λ(ak)..Λ(a1)=Λ(a)=Λ
定义: Λ^k=Λ(ak)/Λ(ak+1),Λ^m=Λm
            Λ^k={θ|θΛ(ak+1),θΛ(ak)},k=1..m1
则有:
1、 Λ^kΛ^j=ϕ,ij;mi=1Λ^i=Λ
2、 supθΛ^kR(θ)=ak+1,infθΛ^kR(θ)=ak
3、 supθΛ^kR(θ)infθΛ(ak+1)R(θ)=ak+1<ak+ε2=infθΛ(ak)R(θ)+ε2(2)
注意 (2) 式下文证明中两次用到,这是sup 转变为inf的关键。

:

对于任意的 ak ,定义事件 Tk:infθΛ(ak)Rexp(Xn,θ)<infθΛ(ak)R(θ)ε2
ERP原则一致性要求,有 infθΛ(ak)Rexp(Xn,θ)pinfθΛ(ak)R(θ)
得到 limnP(Tk)=0

T=ni=1Ti ,则有 limnP(T)ni=1limnP(Tk)=0

定义事件 A:supθΛ(R(θ)Remp(Xn,θ))>ε 发生了,
则必然存在某个 Λ^k , θΛ^k 使得: supR(θ)infRexp(Xn,θ)>ε .
因为:
            supR(θ)<infθΛ(ak+1)R(θ)<infθΛ(ak)R(θ)+ε2
            infRexp(Xn,θ)=infθΛ(ak)Rexp(Xn,θ)
因此有
            infθΛ(ak)R(θ)+ε2>infθΛ(ak)Rexp(Xn,θ)+ε
这意味着事件 T 发生了,即A事件发生蕴含T事件发生。因此有:
           limnP(A)limnP(T)=0
即:
            limnP(supθΛ(R(θ)Rexp(Xn,θ))>ε)=0;ε>0


接着证明:” :”

           若 limnP(supθΛ(R(θ)Rexp(Xn,θ))>ε)=0;ε>0 成立:
则对于任意的 θΛ^k,i=1..n 都有:
            limnP(supθΛ^k(R(θ)Rexp(Xn,θ))>ε)=0;ε>0
得到:
            limnP(supθΛ^kRθ)infθΛ^kRexp(Xn,θ)>ε)=0;ε>0
应用前面提到的 (2) 式得到:
            limnP(infθΛ(ak)Rθ)infθΛ(ak)Rexp(Xn,θ)>ε2)=0;ε>0(3)
至此,完成了单边一致的证明。


下面证明严格一致性也成立:
假定时间发生了事件A2: infθΛ(ak)Rexp(Xn,θ)infθΛ(ak)R(θ)>ε

则必有:
            infθΛ(ak)Rexp(Xn,θ)>infθΛ(ak)R(θ)+ε=R(θ)+ε2,θΛ^(ak)

得到:
            Rexp(Xn,θ)>R(θ)+ε2θΛ^(ak)
根据大数定理,必然有:
            Rexp(Xn,θ)pR(θ)
所以下式成立:
            limnP(infθΛ(ak)Rexp(Xn,θ)infθΛ(ak)R(θ)>ε)=0;ε>0(4)
根据 (3)(4) 两式,有:
            limnP(infθΛ(ak)Rθ)infθΛ(ak)Rexp(Xn,θ)>ε2)=0;ε>0
即:
            infθΛRexp(Xn,θ)pinfθΛRθ)


证明完毕。

在此,我们看到了ERP原则一致性,等价于单边一致收敛:

P(supθΛ(R(θ)Rexp(Xn,θ))ε)n0(5)

但是,到此还没有讨论到单边一致收敛对损失函数有何要求。关键定理是整个统计学习理论的重要一步,它将问题进行了转化。

后面从双边一致性开始讨论,双边一致形式如下:

P(supθΛR(θ)Rexp(Xn,θ)ε)n0(6)

概率 P 是函数集{L(x;θ)|θΛ}上的泛函,所以这是泛函上的大数定理,问题是:什么时候成立?
Vapnik大师由简单到复杂,一步一步证明,其中知识贯通了概率论,测度论,展示了精湛的分析功力,顶礼膜拜一下这位大师。
这位大师将损失函数集 {L(x;θ)|θΛ} 从最简单的有限个元素示性函数集,先拓展到无限元素的示性函数集,然后拓展到有界实数集,最有拓展到无界实数集。最后还完成了有依概率收敛到几乎处处收敛的结果论证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值