Coursera机器学习基石笔记week6

Theory of Generalization

Restriction of Break Point

在这里插入图片描述
很明显,当N=1时, m H ( N ) m_H(N) mH(N)=2,;当N=2时,由break point为2可知,任意两点都不能被shattered(shatter的意思是对N个点,能够分解为 2 N 2^N 2N种dichotomies); m H ( N ) m_H(N) mH(N)最大值只能是3;当N=3时,简单绘图分析可得其 m H ( N ) = 4 m_H(N)=4 mH(N)=4,即最多只有4种dichotomies。

所以,我们发现当N>k时,break point限制了 m H ( N ) m_H(N) mH(N)值的大小,也就是说影响成长函数 m H ( N ) m_H(N) mH(N)的因素主要有两个:

  • 抽样数据集N
  • break point k(这个变量确定了假设的类型)

那么,如果给定N和k,能够证明其 m H ( N ) m_H(N) mH(N)的最大值的上界是多项式的,则根据霍夫丁不等式,就能用 m H ( N m_H(N mH(N)代替M,得到机器学习是可行的。所以,证明 m H ( N ) m_H(N) mH(N)的上界是poly(N),是我们的目标。

Bounding Function:Basic Cases

在这里插入图片描述

  • 当k=1时,B(N,1)恒为1。
  • 当N < k时,根据break point的定义,很容易得到 B ( N , k ) = 2 N B(N,k)=2^N B(N,k)=2N
  • 当N = k时,此时N是第一次出现不能被shatter的值,所以最多只能有 2 N − 1 2^N-1 2N1个dichotomies,则B(N,k)= 2 N − 1 2^N-1 2N1
    在这里插入图片描述

Bounding Function:Inductive Cases

以B(4,3)为例,首先想着能否构建B(4,3)与B(3,x)之间的关系。

首先,把B(4,3)所有情况写下来,共有11组。也就是说再加一种dichotomy,任意三点都能被shattered,11是极限。
在这里插入图片描述
对这11种dichotomy分组,目前分成两组,分别是orange和purple,orange的特点是,x1,x2和x3是一致的,x4不同并成对,例如1和5,2和8等,purple则是单一的,x1,x2,x3都不同,如6,7,9三组。
在这里插入图片描述
然后根据分组,对橙色部分分为2 α \alpha α,紫色部分分为 β \beta β,那么 B ( 4 , 3 ) = 2 α + β B(4,3)=2\alpha+\beta B(4,3)=2α+β。然后我们将x4去掉,同时将橙色重复部分去除,即得 α + β \alpha+\beta α+β。已知任意3个点在上述11个分组中不能shatter,那么对于我们经过删减的 α + β \alpha+\beta α+β来说,它们也不能shatter。也就说明了 α + β ≤ B ( 3 , 3 ) \alpha+\beta\leq B(3,3) α+βB(3,3).
在这里插入图片描述
另一方面,由于 α α \alphaα αα中x4是成对存在的,且 α \alpha α是不能被任意三点shatter的,则能推导出 α \alpha α是不能被任意两点shatter的。这是因为,如果 α \alpha α是能被任意两点shatter,而x4又是成对存在的,那么x1、x2、x3、x4组成的 α \alpha α必然能被三个点shatter。这就违背了条件的设定。这个地方的推导非常巧妙,也解释了为什么会这样分组。此处得到的结论是 α ≤ B ( 3 , 2 ) \alpha \leq B(3,2) αB(3,2)
在这里插入图片描述
由此得出B(4,3)与B(3,x)的关系为:
在这里插入图片描述
最后,推导出一般公式为:
在这里插入图片描述
根据推导公式,下表给出B(N,K)值
在这里插入图片描述
根据递推公式,推导出B(N,K)满足下列不等式:
在这里插入图片描述
上述不等式的右边是最高阶为k-1的N多项式,也就是说成长函数 m H ( N ) m_H(N) mH(N)的上界B(N,K)的上界满足多项式分布poly(N),这就是我们想要得到的结果。

得到了 m H ( N ) m_H(N) mH(N)的上界B(N,K)的上界满足多项式分布poly(N)后,我们回过头来看看之前介绍的几种类型它们的 m H ( N ) m_H(N) mH(N)与break point的关系:
在这里插入图片描述
我们得到的结论是,对于2D perceptrons,break point为k=4, m H ( N ) m_H(N) mH(N)的上界是 N k − 1 N^{k-1} Nk1。推广一下,也就是说,如果能找到一个模型的break point,且是有限大的,那么就能推断出其成长函数 m H ( N ) m_H(N) mH(N)有界。

A Pictorial Proof

我们已经知道了成长函数的上界是poly(N)的,下一步,如果能将 m H ( N ) m_H(N) mH(N)代替M,代入到Hoffding不等式中,就能得到 E o u t ≈ E i n E_{out}\approx E_{in} EoutEin的结论:
在这里插入图片描述
但是实际的表达式并不是这样的:
在这里插入图片描述
推导如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
得到最后的VC bound:
在这里插入图片描述
对于已知的2D perceptrons,它的break point是4,那么成长函数 m H ( N ) = O ( N 3 ) m_H(N)=O(N^3) mH(N)=O(N3)。所以,我们可以说2D perceptrons是可以进行机器学习的,只要找到hypothesis能让 E i n ≈ 0 E_{in}\approx0 Ein0,就能保证 E i n ≈ E o u t E_{in}\approx E_{out} EinEout

总结

本节课我们主要介绍了只要存在 break point,那么其成长函数 m H ( N ) m_H(N) mH(N)就满足 poly(N)。推导过程是先引入 m H ( N ) m_H(N) mH(N) 的上界 B(N,K),B(N,K) 的上界是 N 的 k−1阶多项式,从而得到 m H ( N ) m_H(N) mH(N)的上界就是 N 的k−1阶多项式。然后,我们通过简单的三步证明,将 m H ( N ) ​ m_H(N)​ mH(N)代入了 Hoffding 不等式中,推导出了 Vapnik-Chervonenkis(VC) bound,最终证明了只要 break point 存在,那么机器学习就是可行的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值