7/19 学习笔记 day2 《统计学习方法》 李航
-qiqi
1.4 模型的评估与模型的选择:
1.4.1-1.4.2 训练误差,测试误差—过拟合与模型选择
-
过拟合(over-fitting):若一味想要提高对训练数据的预测能力,而忽略了模型的复杂度。使所选择的模型的复杂度比实际模型复杂度更高(及所选模型所需要的参数个数>实际拥有的参数个数)。这种现象称之为过拟合。
-
过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知的数据预测得很好,但对未知的数据预测很差的现象。
-
模型的选择就是在避免过拟合并提高模型的预测能力
有关例1.1的思考其实就是在过拟合与模型复杂度之间的一个抉择过程。也是在已知数据之间的预测和未知数据预测之间的抉择过程。训练误差与测试误差:训练误差指训练数据与模型的预测数据之间的差值。测试误差为未知数据与模型预测数据之间的差值。(为什么未知数据还知道其实际值呢?目的是为了我们便于理解,例如可以将一部分训练数据来作为未知数据进行预测,以此来判断我们的模型效果如何)
1.5 正则化与交叉验证:
模型选择的典型方法是正则化(regularization)
正则化是结构风险最小化策略的实现。
另一种常用的模型选择方法是交叉验证
基本想法是重复的使用数据。及将数据既作为训练集又作为测试集或验证集来应用。
交叉验证可分为
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
1.6 泛化能力:
- 学习方法的泛化能力(generalization ability)指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质。
- 现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。