从大量数据中抽取出一些样本,例如,从大量弹珠中随机抽取出一些样本,总的样本中橘色弹珠的比例为,抽取出的样本中橘色弹珠的比例为,这两个比例的值相差很大的几率很小,数学公式表示为:
用抽取到的样本作为训练样本集(in-sample),可以求得一个最佳的假设g,该假设最大可能的接近目标函数f,但是在训练样本集之外的其他样本(out-of-sample)中,假设g和目标函数f可能差别很远,不能说抽取样本分布等同于所有样本的分布,只是大致相近。
二者的错误几率相差为:
当数据资料足够多,且模型H集合有有限个的选择,可以得到Ein和Eout是大致相等的
Ein和Eout不相等的几率可由上式表示,其中M为模型集合中的选择个数,N为数据资料的个数,可以看出当M较小时,Ein和Eout不相等的几率几率较小,但由于M较小,则函数可选择的范围较少,不一定能找出一个函数使Ein = 0,但M较大时Ein和Eout不相等的几率会增大。
当M为无限大时,再能找到一个Ein=0的函数的同时,怎么保证Ein和Eout不相等的几率降低?
由二维平面上的点为例,对平面上的点进行二分类,无论点的类型是什么,最终的有效线的个数(即为M)为
再以一维的点分类来说:
两边点类型相同的情况下,能够分的种类个数为,
中间点类型和两边不同的情况下,,
对于数据样本为凸集合的情况(任何一个凸函数都能把样本作出分类),例如,圆形分布的点,可以把正的点连接作出凸多边形,把这个多边形稍微向外扩张就可以分出来正负样本点,无论点是什么情况的分布,只要在圆上,连接正样本的点作出的多边形总能把点二分类开,所以,
由上述可以看出,最终可选的模型M的个数为,它随着样本数量的增加而增加,但会有一个上限值,总之模型集合的个数是一定的,不会是无限大
可知,Ein和Eout不相等的几率可表示为,
转化为VC-bound的形式为
Ein和Eout相等的几率可表示为,由于
则,表示Ein和Eout有差别的几率被限制在范围内,
即为,而被称为模型复杂度
在很多情况下模型参数的个数大致等于VC维(dvc)的个数,参数越多或者说模型越复杂,越有可能找出Ein最小的假设函数g,但是这需要大量训练样本的支持,因为只有在训练样本数量N足够大时,才能使更复杂(即参数更多或者说VC维更大)的模型出现不好情况的几率变小,dvc、N、Ein、Eout、模型复杂度的关系为
理论上数据量和模型参数复杂度(dvc)的关系为,实际上