一、经验误差与过拟合
1)错误率:分类错误的样本数占样本总数的比例
2)精度:精度 = 1 一 错误率
3)误差:学习器的实际预测输出与样本的真实输出之间的差异
4)训练误差/经验误差:学习器在训练集上的误差
5)泛化误差:学习器在新样本上的误差
6)过拟合:当学习器把训练样本学得"太好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质,这样就会导致泛化性能下降。这种现象称为过拟合
其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了
6.2)过拟合为什么无法避免
机器学习面临的问题通常是NP 难甚至更难,而有效的学习算法必然是在多项式时间内运行完成,若可彻底避免过拟合, 则通过经验误差最小化就能获最优解,这就意味着我们构造性地证明了" P=NP" ;因此 只要相信"p ≠NP " ,过拟合就不可避免
7)欠拟合:是指对训练样本的一般性质尚未学好。。通常是由于学习能力低下而造成的
二、模型评估的方法
1)不同的模型:不同的算法;相同的算法,但是不同的参数配置
2)理想的模型选择方案:
对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型。。缺陷是没有新样本,无法直接获得泛化误差
3)测试集:从样本中划分出训练集和测试集,以测试误差来近似泛化误差
测试集的划分:(终究是对数据的完整性有影响,要找的潜在规律可能也被影响)
3.1)留出法(hold-out)
直接将数据集D 划分为两个互斥的集合,一个用来训练模型,一个评估
需要注意:
3.1.1)划分比例:大约2/3 到 4/5 的样本用于训练,剩余样本用于测试.
3.1.1)最好分层抽样,也就是训练/测试集的划分要尽可能保持数据分布的一致性
3.1.2)划分的问题,哪些进入训练集,哪些进入测试集,随机还是什么? 所以往往需要多次随机划分,评估结果取平均值
3.2)交叉验证法(cross validation)
先将数据集D 划分为k 个大小相似的互斥子集,每次用k-1 个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集。。k次评估结果取平均值
3.2.1)将数据集D 划分为k 个子集同样存在多种划分方式.为减小因样本划分不同而引入的