过拟合
概念理解:为了使分类器能够对训练数据进行完全正确的分类,而把分类器构造得过度精细复杂,使得训练数据稍微有改动,分类器就会失效。简单点理解就是,能够正确甚至百分百分类训练数据,对于测试数据却不能得到很好的结果。
出现原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少
交叉验证
也称为循环估计,是将一个样本集,分割成两个子集,一个作为训练数据用,一个作为测试数据用。之所以说循环,是因为分割的操作不会只进行一次,而是会循环进行,保证所有样本均有测试数据和训练数据的机会,即交叉使用。
作用: 交叉验证是一种预测模型拟合性能的方法。
常见验证方式:
1.holdout验证
通常来说,Holdout验证并非是一种交叉验证,因为数据并没有交叉使用。把随机样本随机分割成两部分,一部分作为验证数据,一部分作为训练数据。
2.K-fold cross-validation(k折交叉验证)
将初始样本分割成K个子样本,一个单独子样本作为验证数据,其他K-1个样本作为训练。交叉验证重复K次。10折交叉验证是最常用的。
3.留一验证
只使用样本中的一项作为验证数据,所有剩余的作为训练数据。这个步骤一直持续到每个样本都被当做一次验证数据。
http://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89
http://www.zhihu.com/question/23578594
泛化能力
概括地说,所谓泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的算法也能给出合适的输出,该能力称为泛化能力。
VC维
对于一个分类H,定义它的Vapnik Chervonenkis dimension,记做VC(H):指的是能够被H打散(shatter)的最大集合的数目。如果H能够打散任务数目的集合,则VC(H)为无穷大。
比如,一个二维线性分类器,很显然打散1个点或集合、2个点或集合,而最多能打散3个点或集合。所以二维线性分类器的VC维等于3。
http://www.cnblogs.com/wuyuegb2312/archive/2012/12/03/2799893.html
分类技术种类
1.概率分类器
NB,ME
2.空间分割
Perceptron,SVM
3.其他
kNN
结构化风险 = 经验风险 + 置信风险
经验风险 = 分类器在给定样本上的误差
置信风险 = 分类器在未知文本上分类的结果的误差
置信风险因素:
- 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;
- 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
提高样本数量,降低VC维,降低置信风险。
以前机器学习的目标是降低经验风险,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,所以,结构风险也高
-
顶
- 0
-
踩