机器学习基石笔记(7)——The VC Dimension

本文深入探讨了机器学习中的VC维概念,解释了其定义,指出当VC维有限时,模型具有泛化能力。讨论了感知机的VC维为n+1,强调了VC维在物理上与模型的自由度和强度的关系,并提供了理解VC维如何影响Eout的上界的视角。
摘要由CSDN通过智能技术生成
7.1 Definition of VC Dimension

  本节给之前的break point一个正式的名字。设假设集H的break point为 k ,则VC Dimension为 k1 ,即 dvc=k1 。它代表的意义在于, mH(N)Ndvc ,即在 mH(N) 难以得到的情况下,我们用 Ndvc 来设置其上界,这意味着如果有 N 个以上的样本, H 一定不能做出shatter,然而,当样本数不大于 N 时, H 也有可能不能shatter。 
  当 dvc 有限时,可以认为 EoutEin ,即存在泛化能力,并且与以下因素无关: 
  (1)与从 H 获取模型的演算法无关 
  (2)与输入数据的分布无关 
  (3)与目标函数 f 无关

7.2 VC Dimension of Perceptrons

7.2.1 感知机的学习过程 
  首先在线性可分的数据集中,经过一个演算法使得 Ein=0 ,然后在假定所有数据同分布、VC维有限的情况下, P[|Ein(g)Eout(g)|>ϵ] 会小于一个上限,意味着在足够多的数据下 EoutEin ,由 Eout0 。 
7.2.2 感知机的VC维 
  证明n维感知机的VC维是 n+1 : 
  (1) n 维感知机能shatter某一 d+1 维数据 
   n 维感知机的权重向量 w n+1 维的。同时设某 d+1 维数据的矩阵表示是可逆的,则存在 Xw=y ,即 w=X1y ,可知存在 w 使得 X 能按任意 y 划分。 
  (2)  n 维感知机不能shatter某一 d+2 维数据 
  由于 xn+2=x1++xn+1 因此 wTxn+2=wTx1++wTxn+1 ,可知当 y1,,yn+1 给定时, yn+2 被锁定,故无法shatter。

7.3 Physical Intuition of VC Dimension

  VC维在物理上大致但不总是代表着 H 的自由度,即能自由决定的变量个数。自由度越高,意味着H能shatter更多的样本,故代表着H的强度,同时在高自由度下却很难使得 EoutEin

7.4 Interpreting VC Dimension

  用 dvc 将原有的6.4节的公式替换,我们可以得出 Eout 的上界,公式如下: 

Eout(g)Ein(g)+8Nln(4(2N)dvcδ)

  我们令该公式带根号的后半部分为 Ω ,可以看到,当 dvc 上升时, Ein(g) 下降,但是 Ω 上升,反之亦然。也就是说,当VC维上升时,训练集误差下降,测试集误差先下降后上升。 
  另外,在代入VC维后我们得到公式: 
P[|EinEin|>ϵ]4(2N)dvceϵ2N/8

  根据此公式在已知其他变量的情况下可以求出未知的变量。据此,我们可以得出理论上在训练算法时应使用10000倍于VC维的数据量,但实际上由于该公式经过了多次严格约束,故而只需要10倍于VC维的数据量即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值