1.5 正则化和交叉验证

上一节说到:如何防止过拟合和欠拟合呢,即选择一个模型复杂度适中的模型,使得训练误差和测试误差均较小。常用两个方法:正则化和交叉验证
正则化:经验风险+正则化项=结构风险,而正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大,为了简单在此可以把正则化项看作是模型参数个数、模型参数值的函数,不妨在此取模型参数向量的范数(1-范数(参数个数),2-范数(参数值)),在此过程中,不需要划分样本集,参数个数未定,会自动选择。
关于使用1-范数、2-范数的不同使用场景待解决?
交叉验证:由于样本量足够,将数据分成三部分,训练数据集,验证数据集,测试数据集,需事先设定不同参数个数后训练得到多个模型(训练误差小),然后在验证集上模型选择测试误差最小的(测试误差小),最后测试集测试看效果;更一般的方式:
简单交叉验证
随机7:3划分样本数据为训练集和测试集合,然后在训练集上训练出不同的模型(训练误差小),在测试集上选择测试误差最小的模型(测试误差小);
s折交叉验证
随机划分样本数据集为s个互不相交、大小相同的子集,没选定一个模型(如设定参数个数)后,用1个子集测试,剩余s-1个子集测试,把选定模型训练出来的测试误差做平均后,选出各个选定模型平均误差最小的作为模型。
留一交叉法验证
该法为s折交叉验证的特殊情形。该法适用于数据很缺乏的情况。
关于数据缺乏和模型训练需要多少样本量的一个评估待解决?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值