1. 阶次与偏差/方差
1.1 用交叉验证来选取模型
假设模型要在10个不同阶次的二次型之间选取,主要有几个要点:(1)在训练集和测试集之外再增加交叉验证集(2)使用训练集训练模型(3)使用交叉验证机确定模型(4)使用训练集评价模型
- 数据分集:将60%的数据作为训练集,20%作为交叉验证集,剩下的20%作为测试集
- 训练模型:使用训练集训练出10个模型
- 确定模型:使用交叉验证集分别对10个模型计算交叉验证误差(代价函数),并选取验证误差最小的那个(原因可以参照下一部分中的图)
- 评价模型:用选取的模型在验证集中计算推广验证误差
1.2 偏差和方差诊断
误差是由偏差和方差造成的。现有测试集 X X ,我们用 表示测试集 X X 的真实值,