机器学习课堂笔记4

最新推荐文章于 2024-04-22 15:35:06 发布

nickzzzhu

最新推荐文章于 2024-04-22 15:35:06 发布

阅读量313

点赞数

分类专栏：机器学习文章标签：机器学习 vc 机器学习理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nickzzzhu/article/details/77822971

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

1，机器什么时候可以学习

2，为什么机器可以学习

3，机器怎么学习

4，机器怎么样才能学得更好

VC维：

课堂笔记3中提到“break point”的概念：在数据量达到一定数量k的时候，假设集合H无法再shatter这k个数据，则成长函数mH的break point就是k。VC dimision=k-1，即假设集合H可以shatter的最大的数据量，记为dvc

不同的假设集合H的VC维是不一样的，对于课堂笔记1中提到的感知器算法（PLA），其VC维=d+1,其中d是输入变量X的维度。对于有些H，VC维是无限大（比如机器学习笔记3中提到的convex set，对任意数量的数据都可以shatter）

有了VC维的概念，当dvchi有限的时候，就可以用其保证Ein和Eout是接近的。这种接近是一般意义上的，即对任何机器学习算法，任何产生X的分布，任何可能的目标函数f，都能保证样本内的错误Ein和样本外错误Eout是PAC的，所以我们可以有以下的机器学习的框架：

一般来说，我们可以根据假设集合H的假设自由度（即假设中待确定的参数的数量）来近似估计VC维。例如有W=(w0,w1,...,wd)，dvc(H)近似等于d.可以把VC维看成对假设H有多强的度量，dvc越小，假设H越简单，我们越可以保证Ein和Eout是很接近的，但是也越难以找到好的假设h让Ein足够小。反之，Ein可以很小，但是Eout可能和Ein相差很远（也就是过拟合问题）。

可以用dvc表示模型复杂度。模型复杂度影响着Ein和Eout的差别。根据学习笔记3中的公式：

模型复杂度和Eout，Ein的关系图如下：

可以看到Eout是随着dvc先减少后增加的。

dvc还可以指导我们需要多少数据量才能达到某种精度要求：

假设需要Ein和Eout相差超过0.1的概率不超过0.1，则我们学习需要的数据量是：

理论上来说，需要的数据量是dvc的一万倍。但是dvc是非常宽松的上界，所以实际上：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习课堂笔记4

VC维的概念VC维对机器为什么可以学习的保证样本外误差和样本内误差、模型复杂度的关系在特定的VC维下，想要比较好的学习到模式所需要的数据量
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。