上一节说到:如何防止过拟合和欠拟合呢,即选择一个模型复杂度适中的模型,使得训练误差和测试误差均较小。常用两个方法:正则化和交叉验证
正则化:经验风险+正则化项=结构风险,而正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大,为了简单在此可以把正则化项看作是模型参数个数、模型参数值的函数,不妨在此取模型参数向量的范数(1-范数(参数个数),2-范数(参数值)),在此过程中,不需要划分样本集,参数个数未定,会自动选择。
关于使用1-范数、2-范数的不同使用场景待解决?
交叉验证:由于样本量足够,将数据分成三部分,训练数据集,验证数据集,测试数据集,需事先设定不同参数个数后训练得到多个模型(训练误差小),然后在验证集上模型选择测试误差最小的(测试误差小),最后测试集测试看效果;更一般的方式:
简单交叉验证
随机7:3划分样本数据为训练集和测试集合,然后在训练集上训练出不同的模型(训练误差小),在测试集上选择测试误差最小的模型(测试误差小);
s折交叉验证
随机划分样本数据集为s个互不相交、大小相同的子集,没选定一个模型(如设定参数个数)后,用1个子集测试,剩余s-1个子集测试,把选定模型训练出来的测试误差做平均后,选出各个选定模型平均误差最小的作为模型。
留一交叉法验证
该法为s折交叉验证的特殊情形。该法适用于数据很缺乏的情况。
关于数据缺乏和模型训练需要多少样本量的一个评估待解决?
1.5 正则化和交叉验证
最新推荐文章于 2023-02-20 10:32:36 发布