VC维的物理意义

  1. 物理意义1
    我们上一节证明了,对于二分类问题,当他的数据为d维的时候,他vc维度为d+1,即 vvc=d+1 ,这告诉了我们上面信息呢???
    对于二分类的hypothsis,如果数据为d为的话,其可以用参数 w=(w0,w1,...,wd) 来表示。即这个w向量就相当于H的“可调旋钮一样”,我们称其为H的自由度。很明显这个w向量总共有d+1个“可调旋钮”( w0,...,wd )。而这刚刚好是 dvc 在数据的维度为d时候的值。即我们可以认为, dvc 的值其实就表示二分类超平面H的有效自由度, dvc 的值表示超平面“可调旋钮”的数目。
    比如,对于我们先前提到的一下情况
    这里写图片描述
    发现他的可调旋钮的参数(free parameters)为a,仅仅只有一个。而此时他的 dvc 正好也为1。
    这里写图片描述
    同理,在这种情况下,他的可调旋钮的参数(free parameters)为l,r,有两个。而此时他的 dvc 正好也为2。
    所以我们认为, dvc 就是表示可调旋钮的数量(自由参数)
    这里写图片描述

  2. 物理意义2 模型复杂度
    对于VC boud 不等式
    这里写图片描述
    我们就、可以用其他的变量表示出 ϵ
    这里写图片描述
    我们看书一根据VC bound 表示出
    这里写图片描述 的概率为这里写图片描述
    即在该概率下,有
    这里写图片描述

    这里写图片描述
    在上图中,我们用 Ω(N,H,δ) 表示上图后面的表示式。
    那么在N不变,仅改变 dvc 的情况下,误差的变化曲线为
    这里写图片描述

注:里面的 in-sample error 表示 Ein , out-of-sample error表示 Eout
所以我们发现并不是 Ein 越小越好,即并不是 dvc 越大越好,也就是并不是模型越复杂越好。由于我们最终希望的是 Eout 最小,所以最好的 dvc 为靠近中间的那种情况。

  1. 物理意义3 样本复杂度
    我们用vc bound 见图
    这里写图片描述
    可以推理得到,在给定 dvc 的情况下,理论上需要样本的数量N=10,000 dvc
    但是,根据经验发现,N=10 dvc 就足够了。
    原因是我们那个VC bound 的不等式,为了能够满足所有的情况,放得太松了!!!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值