VC维和bias-variance
VC维
很多时候,假设空间的取值是无限的,我们无法用取值来衡量模型的复杂度。于是采用VC维来评判模型复杂程度,反映模型的学习能力,VC维越大,模型的复杂度越高,容量越大,分类能力越强。
如何衡量一类模型的分类能力?
用假设集合里的任意最好的模型去衡量此数据维度下的最复杂的情况。对于N维空间下的n个样本的数据集,存在一种超平面(二维空间就是一条直线)将这个数据集样本二分类,那么在N维空间下这n个样本就可以被打散,反之不能够被打散。
对于N维空间,VC维就是最大的满足可打散的样本数量。
以二维空间举例,如果数据量为3,样本不论如何分布,总有一条直线将其划分开。可以说线性模型的VC维=N-1。
bias-variance
给定学习目标和训练规模,bias-variance可以把一种学习算法的期望误差分解为三个非负项的和,bias、variance和噪音。
噪音是数据本身存在的,无论用什么模型和方法都