统计学习理论

0、引入

统计机器学习的目标是要从假设集H中选择一个假设函数h,使得h和产生数据的f(未知的)尽可能接近。通常我们是选择在训练集上出错最少的那个h,然后使用选定的h进行预测。但是这样选出来的h靠谱吗?也就是说,在训练集上表现最好的h,在训练集以外的数据上是否表现良好?

下面我们将引入假设:训练集和测试集都是来自同一个分布的简单随机样本,然后在统计的范畴下讨论上述问题。我们将会证明,在数量足够大的情况下,上述选择是靠谱的。

1、基础

假设训练集和测试集都是来自同一个分布的简单随机样本(独立同分布),则根据霍夫丁不等式,有如下结论

093533_U2at_1757446.png………… (1)

其中Ein和Eout分别为

101233_hiep_1757446.png093617_GJ1e_1757446.png

也就是说,对于某一个固定的假设函数h,它在训练集上的错误率,和它在真实情况下的错误率,这两个错误率出现较大偏差的概率,会小于某一个量(这个量随着训练样本数量N的增大呈指数级递减)。

那么,我们是不是可以说,在训练集足够大的情况下,只要我们选择一个Ein很小的假设函数h就可以了?如果训练集足够大,那么我们就可以以很高的概率保证Ein和Eout差距很小,选择一个Ein很小的假设函数h,则Eout很小的概率也就很高,那么我们就可以以很高的概率保证所选h的Eout很小,也就是说在训练集意外的数据上表现很好。

是这样的吗?答案是否定的。

不等式(1)的结论保证了固定的h的情况,但是我们要说的是选择一个h。至于怎么选择取决于算法,而实际上我们往往倾向于选择Ein较小的h,实际情况可以想象,我们选择Ein较小的h和不考虑Ein随机选择一个h,这两种情况相比,前一种情况Ein和Eout相差比较大的概率明显是会比后一种高的。

更理论的解释是,当我们执行某种学习算法选择h时,不等式的左侧就变成P[ | Ein(h) - Eout(h) | >ε | 学习算法选择h]。可以看到,这时不等式左侧变成了一个条件概率,即,算法选择h的条件下,该h的Ein和Eout相差大于ε的概率。除非我们的学习算法在选择假设函数时不考虑Ein,那么可以说 学习算法选择h  和 | Ein(h) - Eout(h) |> ε 这两个随机事件相互独立,我们可以丢掉条件,仍然适用上述不等式(1)。但是实际情况是,我们需要选择Ein较小的h,那么 学习算法选择h  和 | Ein(h) - Eout(h) |> ε 这两个随机事件自然是不独立的。

很显然,通过 P[ | Ein(h) - Eout(h) | ε | 学习算法选择h] 来对统计机器学习给出概率保障是做不到的,我们无法对于学习算法选择h这一事件进行概率建模。所以需要换一种思路,就是无论学习算法如何选择h,Ein和Eout相差较大的情况出现的概率都小于某一个可控的量。换一种说法就是,假设集H中就不存在h能够使得 Ein和Eout相差较大的情况出现的概率大于某一个可控的量 。转换为概率语言就是,随机事件 假设集H中存在使得Ein和Eout相差很大的h 发生的概率小于某个可控的量。即 P[ ∃ h ∈ H,| Ein(h) - Eout(h) |>ε ] < 某个可控的量。恩达教授的CS229课程讲义就是按照这个思路来讲解的。下边分为有限假设集和无限假设集两种情况来说明。

2、有限假设集

有如下两种理解思路,其本质是一样的。

(1)第一种理解思路

根据第一部分的分析可做如下推导:

P[ ∃ h ∈ H,| Ein(h) - Eout(h) |> ε ]

= P[ |Ein(h1)-Eout(h1)|> ε 或 |Ein(h2)-Eout(h2)|> ε 或 ... 或 |Ein(hm)-Eout(hm)|> ε ]

≤ P[ |Ein(h1)-Eout(h1)|> ε ] + P[ |Ein(h2)-Eout(h2)|> ε ] + ... +P|Ein(hm)-Eout(hm)|> ε ]

≤2exp(-2ε^2N) + 2exp(-2ε^2N) + ... + 2exp(-2ε^2N)

=2mexp(-2ε^2N)

到此我们就得到了我们想要的结论了。

(2)第二种理解思路

对于概率不等式(1),其中的随机变量是训练集D。所以我们可以把不等式中的随机事件 |Ein(h) - Eout(h)|>ε 描述为对于h我们的训练集D是不好的(BAD D  for h)。之所以称其为“ 不好的 ”是因为Ein和Eout相差较大的情况是我们不希望得到的。我们希望的是无论对于假设集中的哪一个,我们的训练集D都是好的。所以对于任意一个h我们的训练集是不好的,我们就称训练集D是不好的(BAD D)

101036_U5er_1757446.png

(3)结论

对于有限假设集,只要数据量足够多,通过选择在训练数据集上表现好(Ein小)的假设函数,就可以保证,所选假设函数以很高的概率在真实使用中表现很好(Eout很小)。

3、无限假设集

对于假设集无限的情况,我们是通过将无限转化为有限的方法来对Ein和Eout的差别进行概率保障,从而间接保障了选择Ein小的假设函数,其Eout大多数时候也很小。

明天再写吧……

 

转载于:https://my.oschina.net/u/1757446/blog/738914

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值