机器学习笔记(四)机器学习可行性分析

从大量数据中抽取出一些样本,例如,从大量弹珠中随机抽取出一些样本,总的样本中橘色弹珠的比例为,抽取出的样本中橘色弹珠的比例为,这两个比例的值相差很大的几率很小,数学公式表示为:

用抽取到的样本作为训练样本集(in-sample),可以求得一个最佳的假设g,该假设最大可能的接近目标函数f,但是在训练样本集之外的其他样本(out-of-sample)中,假设g和目标函数f可能差别很远,不能说抽取样本分布等同于所有样本的分布,只是大致相近。

二者的错误几率相差为:

当数据资料足够多,且模型H集合有有限个的选择,可以得到Ein和Eout是大致相等的

Ein和Eout不相等的几率可由上式表示,其中M为模型集合中的选择个数,N为数据资料的个数,可以看出当M较小时,Ein和Eout不相等的几率几率较小,但由于M较小,则函数可选择的范围较少,不一定能找出一个函数使Ein = 0,但M较大时Ein和Eout不相等的几率会增大。

当M为无限大时,再能找到一个Ein=0的函数的同时,怎么保证Ein和Eout不相等的几率降低?

由二维平面上的点为例,对平面上的点进行二分类,无论点的类型是什么,最终的有效线的个数(即为M)为

 

再以一维的点分类来说:

两边点类型相同的情况下,能够分的种类个数为

中间点类型和两边不同的情况下,

对于数据样本为凸集合的情况(任何一个凸函数都能把样本作出分类),例如,圆形分布的点,可以把正的点连接作出凸多边形,把这个多边形稍微向外扩张就可以分出来正负样本点,无论点是什么情况的分布,只要在圆上,连接正样本的点作出的多边形总能把点二分类开,所以,

由上述可以看出,最终可选的模型M的个数为,它随着样本数量的增加而增加,但会有一个上限值,总之模型集合的个数是一定的,不会是无限大

可知,Ein和Eout不相等的几率可表示为

转化为VC-bound的形式为

Ein和Eout相等的几率可表示为,由于

,表示Ein和Eout有差别的几率被限制在范围内,

即为,而被称为模型复杂度

在很多情况下模型参数的个数大致等于VC维(dvc)的个数,参数越多或者说模型越复杂,越有可能找出Ein最小的假设函数g,但是这需要大量训练样本的支持,因为只有在训练样本数量N足够大时,才能使更复杂(即参数更多或者说VC维更大)的模型出现不好情况的几率变小,dvc、N、Ein、Eout、模型复杂度的关系为

理论上数据量和模型参数复杂度(dvc)的关系为,实际上

 

转载于:https://www.cnblogs.com/zsw900610/p/6828066.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值