本文主要参考书籍为《统计学习方法》(李辉),第一章 统计学习方法概论。
目录
1.4 模型评估与模型选择
1.4.1 训练误差&测试误差
测试误差反映的是模型对未知数据集的预测能力,更为重要。
1.4.2 过拟合与模型选择
解决过拟合问题的步骤:
1)确定模型复杂度,即多项式的次数
2)按照风险最小化从策略,求解参数,即最小化:
,其中1/2是为了计算方便的系数。
3)将模型代入:
4)
1.5 正则化与交叉验证——防止过拟合
1.5.1 正则化
贝叶斯的角度来看,正则化对应于模型中的先验概率。
1.5.2 交叉验证
1.5.2.1 数据集样本数据充足时
可以随机地将数据集分为三个部分:
1)训练集:训练模型
2)验证集:模型的选择
3)测试集:最终对学习方法的评估
1.5.2.2 数据集样本数据不充足时——交叉验证
交叉验证的基本思想是重复的使用数据
1)简单交叉验证
2)S折交叉验证
3)留一交叉验证