机器学习 · 总览篇 X 可学习性 & VC理论

VC 理论中 VC维 和 VC界 作为机器学习可学习性的最重要的理论基础,对于机器学习方法的研究和使用具有十分重要的指导意义。比如对于一个任务,我准备使用的机器学习方法是否合理、数据量至少需要多少,这些问题如何在进行实验之前就能被解答?答案就在本文中。

文章首发于我的博客,转载请保留链接 😉

机器学习主要研究的是怎么去学习解决一个问题,这里面包含了一个隐含的前提条件:对于待学习的问题,学习方法必须是可行的。那么怎么去判定一个学习方法对于问题的可学习性呢?PCA Learning 就是关于机器学习可学习性的一个完善的解释理论。PAC learning,全称是 Probably approximately correct learning,中文直译叫 概率近似正确学习,有点拗口,解释下这个名称:

  1. 首先,Approximately Correct(近似正确)就是指学出的模型的误差比较小(误差被限制住),因为实现零误差(Absolutely Correct)是非常困难并且通常没有必要的,所以这里考虑的是 Approximately Correct;
  2. 其次,由于随机性的存在,我们只能从概率上保证 Approximately Correct 的可能性是很大的(存在一个概率下界)。

以上这就是 PAC Learning 的名称由来。Leslie Valiant 于1984年提出 PAC Learning,也主要因为该理论获得2010年图灵奖,可见该理论对机器学习的重要性。 PAC Learning 可以看做是机器学习的数学分析框架,它将计算复杂度理论引入机器学习,描述了机器学习的有限假设空间的可学习性,无限空间的VC维相关的可学习性等问题

下面将从 可学习性、VC界、VC维 几个角度对 PAC Learning 理论进行介绍。在什么情况下 learning 是可行的?以机器学习实际应用的角度来看,需要具备以下两个条件,

  1. 模型不能过于复杂,数据量需要足够大,即模型的复杂程度不能远高于数据量的支撑
  2. 合适的最优化方法,即让 目标函数值接近0 的求参算法

这两个条件看起来是 “经验主义”,那有没有更加准确的数学程式化定义?

一、Hoeffding不等式

为了解答上面的问题,需要从 Hoeffding不等式 说起,Hoeffding不等式 是关于一组随机变量均值的概率不等式。 如果 X1,X2,⋯,Xn 为一组独立同分布的参数为 p 的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为:

那么对于任意 δ>0, Hoeffding不等式 可以表示为

Hoeffding不等式 可以直接应用到一个 抽球颜色 的统计推断问题上:我们从罐子里抽球,希望估计罐子里红球和绿球的比例,

如果对 总览篇III 一文中涉及的统计推断方法还记得的话,知道这个问题根据 频率学派 和 贝叶斯学派 的差别有两个不同的答案,频率学派给出的答案就是 总体的期望 μ 就等于样本期望 ν,这里对两个学派就不再次进行解释了,只讨论频率学派给出的答案的准确性。直觉上,如果我们有更多的样本,即抽出更多的球,总体的期望 μ 确实越接近样本期望 ν;事实上,这里可以用 Hoeffding不等式 量化地表示接近情况,如果抽球样本数维 N,则如下:

二、Hoeffding不等式 应用到机器学习

将 Hoeffding不等式 应用到机器学习的问题上,机器学习的过程可以程式化表示为:通过算法 A,在机器学习方法的假设空间 H 中,根据样本集 D,选择最好的假设作为 g,选择标准是使 g 近似与理想的方案 f,其中,H 可以是一个函数(此时是非概率模型),也可以是一个分布(此时是概率模型),g 和 f 属于 H。类似于上面 “抽球” 的例子,可以通过样本集的经验损失(expirical loss ) ,即 in-sample error,来推测总体的期望损失(expected loss) 。对于假设空间 H 中一个任意的备选函数 h,基于 Hoeffding不等式,我们得到下面的式子:

那么对于整个假设空间 H,假设存在 M 个 h,则可以推导出下面的式子:

上面这个式子的含义很重要:在假设空间 H 中,设定一个较小的 ϵ 值,任意一个假设 h ,它的样本值和期望值之间的误差概率被一个只与 ϵ、样本数 N、假设数 M 相关的值约束住。

到这里,我们可以将最开始看起来 “经验主义” 地对 learning 可行的情况定义用上面的结论改造一下,如下所示:

1.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值