机器学习 · 总览篇 X 可学习性 & VC理论

最新推荐文章于 2022-12-04 22:36:51 发布

甩一甩SAMA

最新推荐文章于 2022-12-04 22:36:51 发布

阅读量790

点赞数

分类专栏：机器学习·总览篇

本文链接：https://blog.csdn.net/OEDead/article/details/107225932

版权

VC 理论中 VC维和 VC界作为机器学习可学习性的最重要的理论基础，对于机器学习方法的研究和使用具有十分重要的指导意义。比如对于一个任务，我准备使用的机器学习方法是否合理、数据量至少需要多少，这些问题如何在进行实验之前就能被解答？答案就在本文中。

文章首发于我的博客，转载请保留链接 😉

机器学习主要研究的是怎么去学习解决一个问题，这里面包含了一个隐含的前提条件：对于待学习的问题，学习方法必须是可行的。那么怎么去判定一个学习方法对于问题的可学习性呢？PCA Learning 就是关于机器学习可学习性的一个完善的解释理论。PAC learning，全称是 Probably approximately correct learning，中文直译叫概率近似正确学习，有点拗口，解释下这个名称：

首先，Approximately Correct（近似正确）就是指学出的模型的误差比较小（误差被限制住），因为实现零误差（Absolutely Correct）是非常困难并且通常没有必要的，所以这里考虑的是 Approximately Correct；
其次，由于随机性的存在，我们只能从概率上保证 Approximately Correct 的可能性是很大的（存在一个概率下界）。

以上这就是 PAC Learning 的名称由来。Leslie Valiant 于1984年提出 PAC Learning，也主要因为该理论获得2010年图灵奖，可见该理论对机器学习的重要性。 PAC Learning 可以看做是机器学习的数学分析框架，它将计算复杂度理论引入机器学习，描述了机器学习的有限假设空间的可学习性，无限空间的VC维相关的可学习性等问题。

下面将从可学习性、VC界、VC维几个角度对 PAC Learning 理论进行介绍。在什么情况下 learning 是可行的？以机器学习实际应用的角度来看，需要具备以下两个条件，

模型不能过于复杂，数据量需要足够大，即模型的复杂程度不能远高于数据量的支撑
合适的最优化方法，即让目标函数值接近0 的求参算法

这两个条件看起来是 “经验主义”，那有没有更加准确的数学程式化定义？

一、Hoeffding不等式

为了解答上面的问题，需要从 Hoeffding不等式说起，Hoeffding不等式是关于一组随机变量均值的概率不等式。如果 X1,X2,⋯,Xn 为一组独立同分布的参数为 p 的伯努利分布随机变量，n为随机变量的个数。定义这组随机变量的均值为：

那么对于任意 δ>0, Hoeffding不等式可以表示为

Hoeffding不等式可以直接应用到一个抽球颜色的统计推断问题上：我们从罐子里抽球，希望估计罐子里红球和绿球的比例，

如果对总览篇III 一文中涉及的统计推断方法还记得的话，知道这个问题根据频率学派和贝叶斯学派的差别有两个不同的答案，频率学派给出的答案就是总体的期望 μ 就等于样本期望 ν，这里对两个学派就不再次进行解释了，只讨论频率学派给出的答案的准确性。直觉上，如果我们有更多的样本，即抽出更多的球，总体的期望 μ 确实越接近样本期望 ν；事实上，这里可以用 Hoeffding不等式量化地表示接近情况，如果抽球样本数维 N，则如下：

二、Hoeffding不等式应用到机器学习

将 Hoeffding不等式应用到机器学习的问题上，机器学习的过程可以程式化表示为：通过算法 A，在机器学习方法的假设空间 H 中，根据样本集 D，选择最好的假设作为 g，选择标准是使 g 近似与理想的方案 f，其中，H 可以是一个函数（此时是非概率模型），也可以是一个分布（此时是概率模型），g 和 f 属于 H。类似于上面 “抽球” 的例子，可以通过样本集的经验损失（expirical loss ） $E_{in}(h)$ ，即 in-sample error，来推测总体的期望损失（expected loss） 。对于假设空间 H 中一个任意的备选函数 h，基于 Hoeffding不等式，我们得到下面的式子：

那么对于整个假设空间 H，假设存在 M 个 h，则可以推导出下面的式子：

上面这个式子的含义很重要：在假设空间 H 中，设定一个较小的 ϵ 值，任意一个假设 h ，它的样本值和期望值之间的误差概率被一个只与 ϵ、样本数 N、假设数 M 相关的值约束住。

到这里，我们可以将最开始看起来 “经验主义” 地对 learning 可行的情况定义用上面的结论改造一下，如下所示：

最低0.47元/天解锁文章

甩一甩SAMA

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 · 总览篇 X 可学习性 & VC理论

VC 理论中 VC维和 VC界作为机器学习可学习性的最重要的理论基础，对于机器学习方法的研究和使用具有十分重要的指导意义。比如对于一个任务，我准备使用的机器学习方法是否合理、数据量至少需要多少，这些问题如何在进行实验之前就能被解答？答案就在本文中。文章首发于我的博客，转载请保留链接 ????机器学习主要研究的是怎么去学习解决一个问题，这里面包含了一个隐含的前提条件：对于待学习的问题，学习方法必须是可行的。那么怎么去判定一个学习方法对于问题的可学习性呢？PCA Learning 就是关于机器学习
复制链接

扫一扫