机器学习课堂笔记4

1,机器什么时候可以学习

2,为什么机器可以学习

3,机器怎么学习

4,机器怎么样才能学得更好




VC维:

课堂笔记3中提到“break point”的概念:在数据量达到一定数量k的时候,假设集合H无法再shatter这k个数据,则成长函数mH的break point就是k。VC dimision=k-1,即假设集合H可以shatter的最大的数据量,记为dvc

不同的假设集合H的VC维是不一样的,对于课堂笔记1中提到的感知器算法(PLA),其VC维=d+1,其中d是输入变量X的维度。对于有些H,VC维是无限大(比如机器学习笔记3中提到的convex set,对任意数量的数据都可以shatter)

有了VC维的概念,当dvchi有限的时候,就可以用其保证Ein和Eout是接近的。这种接近是一般意义上的,即对任何机器学习算法,任何产生X的分布,任何可能的目标函数f,都能保证样本内的错误Ein和样本外错误Eout是PAC的,所以我们可以有以下的机器学习的框架:



一般来说,我们可以根据假设集合H的假设自由度(即假设中待确定的参数的数量)来近似估计VC维。例如有W=(w0,w1,...,wd),dvc(H)近似等于d.可以把VC维看成对假设H有多强的度量,dvc越小,假设H越简单,我们越可以保证Ein和Eout是很接近的,但是也越难以找到好的假设h让Ein足够小。反之,Ein可以很小,但是Eout可能和Ein相差很远(也就是过拟合问题)。

可以用dvc表示模型复杂度。模型复杂度影响着Ein和Eout的差别。根据学习笔记3中的公式:




模型复杂度和Eout,Ein的关系图如下:


可以看到Eout是随着dvc先减少后增加的。

dvc还可以指导我们需要多少数据量才能达到某种精度要求:

假设需要Ein和Eout相差超过0.1的概率不超过0.1,则我们学习需要的数据量是:


理论上来说,需要的数据量是dvc的一万倍。但是dvc是非常宽松的上界,所以实际上:






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值