1.过拟合 :由于训练集中存在噪音,模型学习的参数能拟合训练集 但在测试集中不一定拟合 ,所以有过拟合;需要同时考虑对已知和未知的预测能力
改变参数 看测试误差的走势 先降后升中间点是比较好的选择
2.模型的复杂度:多项式的次数 然后经验风险最小化
3.模型的选择:正则化和交叉验证
正则化:结构风险最小化策略
经验风险+正则化项/罚项
作用:选择经验风险和模型复杂度同时较小的模型
交叉验证:模型选择方法
一般的模型选择方法, 需要样本足够充足,随机将数据分为三部分,训练集,验证集,测试集(训练,模型选择,评估), 在学习到的模型选择对验证集有最小预测误差的模型。对于样本不充足,采用交叉验证
交叉验证的基本思想:重复地使用数据。切分数据, 组合成训练集和测试集,在此基础上反复训练测试和模型选择。
a. 简单交叉验证,不同模型用于训练集, 在测试集上评估,选择最好的模型
b.s折交叉验证:分为s个不相交且大小相同的子集,s-1个训练,剩下的测试,s种选择重复进行。不同模型中选择平均测试误差最小的模型。
c. 留一交叉验证:s=n时, 数据缺乏
4.泛化能力:模型对未知的预测能力, 一般测试误差来评价(依赖测试数据集)
公式好多啊, 待证明整理