统计学习理论

最新推荐文章于 2024-09-07 19:53:07 发布

weixin_34405354

最新推荐文章于 2024-09-07 19:53:07 发布

阅读量149

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/1757446/blog/738914

版权

2019独角兽企业重金招聘Python工程师标准>>>

0、引入

统计机器学习的目标是要从假设集H中选择一个假设函数h，使得h和产生数据的f（未知的）尽可能接近。通常我们是选择在训练集上出错最少的那个h，然后使用选定的h进行预测。但是这样选出来的h靠谱吗？也就是说，在训练集上表现最好的h，在训练集以外的数据上是否表现良好？

下面我们将引入假设：训练集和测试集都是来自同一个分布的简单随机样本，然后在统计的范畴下讨论上述问题。我们将会证明，在数量足够大的情况下，上述选择是靠谱的。

1、基础

假设训练集和测试集都是来自同一个分布的简单随机样本（独立同分布），则根据霍夫丁不等式，有如下结论

………… (1)

其中Ein和Eout分别为

和

也就是说，对于某一个固定的假设函数h，它在训练集上的错误率，和它在真实情况下的错误率，这两个错误率出现较大偏差的概率，会小于某一个量（这个量随着训练样本数量N的增大呈指数级递减）。

那么，我们是不是可以说，在训练集足够大的情况下，只要我们选择一个Ein很小的假设函数h就可以了？如果训练集足够大，那么我们就可以以很高的概率保证Ein和Eout差距很小，选择一个Ein很小的假设函数h，则Eout很小的概率也就很高，那么我们就可以以很高的概率保证所选h的Eout很小，也就是说在训练集意外的数据上表现很好。

是这样的吗？答案是否定的。

不等式(1)的结论保证了固定的h的情况，但是我们要说的是选择一个h。至于怎么选择取决于算法，而实际上我们往往倾向于选择Ein较小的h，实际情况可以想象，我们选择Ein较小的h和不考虑Ein随机选择一个h，这两种情况相比，前一种情况Ein和Eout相差比较大的概率明显是会比后一种高的。

很显然，通过 P[ | Ein(h) - Eout(h) |＞ ε | 学习算法选择h] 来对统计机器学习给出概率保障是做不到的，我们无法对于学习算法选择h这一事件进行概率建模。所以需要换一种思路，就是无论学习算法如何选择h，Ein和Eout相差较大的情况出现的概率都小于某一个可控的量。换一种说法就是，假设集H中就不存在h能够使得 Ein和Eout相差较大的情况出现的概率大于某一个可控的量。转换为概率语言就是，随机事件 假设集H中存在使得Ein和Eout相差很大的h 发生的概率小于某个可控的量。即 P[ ∃ h ∈ H，| Ein(h) - Eout(h) |＞ε ] < 某个可控的量。恩达教授的CS229课程讲义就是按照这个思路来讲解的。下边分为有限假设集和无限假设集两种情况来说明。

2、有限假设集

有如下两种理解思路，其本质是一样的。

（1）第一种理解思路

根据第一部分的分析可做如下推导：

P[ ∃ h ∈ H，| Ein(h) - Eout(h) |＞ ε ]

= P[ |Ein(h1)-Eout(h1)|＞ ε 或 |Ein(h2)-Eout(h2)|＞ ε 或 ... 或 |Ein(hm)-Eout(hm)|＞ ε ]

≤ P[ |Ein(h1)-Eout(h1)|＞ ε ] + P[ |Ein(h2)-Eout(h2)|＞ ε ] + ... +P|Ein(hm)-Eout(hm)|＞ ε ]

≤2exp(-2ε^2N) + 2exp(-2ε^2N) + ... + 2exp(-2ε^2N)

=2mexp(-2ε^2N)

到此我们就得到了我们想要的结论了。

（2）第二种理解思路

对于概率不等式(1)，其中的随机变量是训练集D。所以我们可以把不等式中的随机事件 |Ein(h) - Eout(h)|＞ε 描述为对于h我们的训练集D是不好的（BAD D for h）。之所以称其为“ 不好的 ”是因为Ein和Eout相差较大的情况是我们不希望得到的。我们希望的是无论对于假设集中的哪一个，我们的训练集D都是好的。所以对于任意一个h我们的训练集是不好的，我们就称训练集D是不好的（BAD D）。