正则化、交叉验证、泛化能力

一、正则化 
1、模型选择典型的方式就是正则化。正则化就是结构风险最小化策略的实现,就是在经验风险项中添加一个郑泽华想或者叫做惩罚项。 
正则化项与模型的关系一般是模型复杂度越高,正则化项的值就会越大。 
正则化项的作用就是平衡经验风险较小与模型复杂度较小。最好的结果就是经验风险和模型复杂度同时较小。 
正则化的一般形式为: 

其中,第一项为经验风险项,第二项为正则化项。值λ是为了调整两者关系的系数。

二、交叉验证 
通常情况下,我们做模型选择的时候将数据分为训练集、验证集和测试集。但是实际应用中,往往数据并不是很充足,这就导致分为三部分后每一部分数据量不足,这样计算选择得到的模型往往是不可用的。因此我们在这种情况下,可以选择使用交叉验证的方式解决数据量不足的情况。 
1、简单地交叉验证 
简单地交叉验证,就是指随机的将数据分为两部分,一部分为训练数据,一部分为测试数据,一般情况下比例为7:3。使用训练数据应用到各种模型的训练上得到多个不同的模型,然后利用测试数据计算每个模型的计算误差,最终选择误差最小的模型即为最优的模型。 
2、S折交叉验证 
S折交叉验证,就是将数据等比例的分为S份,然后选择其中的S-1份数据作为训练数据,剩余的一份作为测试数据,这样训练数据及测试数据就有S中选择,于是最终选择通过S次评测平均测试误差最小的模型为最优模型。

三、泛化能力 
1、定义:泛化能力就是指所学到的模型对未知数据的预测能力,通常情况我们使用测试数据来验证模型的泛化能力,但是由于数据集有线,其并不能包含数据所有的可能情况,因此测试数据的测试结果并不能完全体现模型的泛化能力,这种评测结果并不可靠。 
2、泛化误差 
假设学到的模型为

,则模型的泛化误差为: 

泛化误差反映了模型的泛化能力,模型选择中,泛化误差越小则模型越好。 
3、泛化误差上界 
通常学习方法的泛化能力分析是研究泛化误差得概率上界。比较两个学习方法的泛化误差上界来确定两个学习方法的优劣。其性质如下: 
(1)泛化误差上界是样本容量的函数,样本容量越大,则泛化误差上界越趋于0。 
(2)泛化误差上界是函数空间的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值