机器学习笔记（四）机器学习可行性分析

最新推荐文章于 2021-11-07 21:11:35 发布

dengyujiu3251

最新推荐文章于 2021-11-07 21:11:35 发布

阅读量432

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/zsw900610/p/6828066.html

版权

从大量数据中抽取出一些样本，例如，从大量弹珠中随机抽取出一些样本，总的样本中橘色弹珠的比例为，抽取出的样本中橘色弹珠的比例为，这两个比例的值相差很大的几率很小，数学公式表示为：

用抽取到的样本作为训练样本集（in-sample），可以求得一个最佳的假设g，该假设最大可能的接近目标函数f，但是在训练样本集之外的其他样本（out-of-sample）中，假设g和目标函数f可能差别很远，不能说抽取样本分布等同于所有样本的分布，只是大致相近。

二者的错误几率相差为：

当数据资料足够多，且模型H集合有有限个的选择，可以得到Ein和Eout是大致相等的

Ein和Eout不相等的几率可由上式表示，其中M为模型集合中的选择个数，N为数据资料的个数，可以看出当M较小时，Ein和Eout不相等的几率几率较小，但由于M较小，则函数可选择的范围较少，不一定能找出一个函数使Ein = 0，但M较大时Ein和Eout不相等的几率会增大。

当M为无限大时，再能找到一个Ein=0的函数的同时，怎么保证Ein和Eout不相等的几率降低？

由二维平面上的点为例，对平面上的点进行二分类，无论点的类型是什么，最终的有效线的个数（即为M）为

再以一维的点分类来说：

两边点类型相同的情况下，能够分的种类个数为，

中间点类型和两边不同的情况下，，

对于数据样本为凸集合的情况（任何一个凸函数都能把样本作出分类），例如，圆形分布的点，可以把正的点连接作出凸多边形，把这个多边形稍微向外扩张就可以分出来正负样本点，无论点是什么情况的分布，只要在圆上，连接正样本的点作出的多边形总能把点二分类开，所以，

由上述可以看出，最终可选的模型M的个数为，它随着样本数量的增加而增加，但会有一个上限值，总之模型集合的个数是一定的，不会是无限大

可知，Ein和Eout不相等的几率可表示为，

转化为VC-bound的形式为

Ein和Eout相等的几率可表示为，由于

则，表示Ein和Eout有差别的几率被限制在范围内，

即为，而被称为模型复杂度

在很多情况下模型参数的个数大致等于VC维（dvc）的个数，参数越多或者说模型越复杂，越有可能找出Ein最小的假设函数g，但是这需要大量训练样本的支持，因为只有在训练样本数量N足够大时，才能使更复杂（即参数更多或者说VC维更大）的模型出现不好情况的几率变小，dvc、N、Ein、Eout、模型复杂度的关系为

理论上数据量和模型参数复杂度（dvc）的关系为，实际上

转载于:https://www.cnblogs.com/zsw900610/p/6828066.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。