为什么过拟合和欠拟合的model都会造成误差?误差的来源是哪两个方面?

我们假设每一个model都是对数据的一种拟合,而多个model最终是会形成一个“平均model”的。这个平均model的位置与“真实model”之间的差距就是bias偏移量。而bias偏移量又是真正衡量一个“model”是否有用的重要衡量标准。所以bias偏移量越大,模型越垃圾。而高阶model往往会造成其bias偏移量较小(至于这个现象的原因是为什么需要数学解释)。从而导致高阶model(或者说是复杂model)的模型更贴合于数据的真实分布。但是当我们用新的测试集在高阶model上进行预测时,由于高阶model的形态过分贴合训练集数据且高阶model群较为繁杂,其在新的测试集数据上的拟合优度一定不会很好。
这就回答了引入的问题:当我们说一个模型发生了欠拟合,那意味着这个模型在根本层面上就很难很好地反映出数据的特征,有可能需要根本否定之。而当我们说一个模型发生了过拟合,那意味着这个模型在训练集上的训练过程是能非常细微得贴合数据特征的,同时多次训练的model集得出的“平均model”与真实model(即真实数据特征)的bias偏移量是非常小的。这说明这个model是具备使用的可能的。但如果我们继续把这个model放在测试集上进行测试,由于其过分贴合训练集数据,对测试集的预测就表现未必会很好,从而形成偏差。总的来说,欠拟合一般不能忍,过拟合还是可以忍的。但最佳状态是找到一个平衡点。就像决策树模型的剪枝,其实就是减小model的泛化性能的过程,也就是“降维”的过程。
理解了这个东西后,对regularization也就更清楚了。加入正则项就是让model的参数变小,model的参数变小就会导致model对数据“不敏感”(因为model的参数大小决定了当数据发生变化时输出结果的变化程度,所以其在某种程度上类似于closed form形式下的函数的“导数”)。所以正则项的加入就是降低model的变化率(或者说是某种意思上的导数)的过程,而当model的变化率降低,model会更加平滑,“平均model”也会更加集中且增大与真实model之间的距离,也就是在数学角度加大了bias偏移量。这就降低了原来过拟合模型的泛化程度。 这,就是正则项的作用。
至于L1正则和L2正则的区别,在这个视角下去理解就会变得非常直观。因为L1正则是参数的一次项直接相加,在图像上表现出来的结果就是让原来的拟合model从“繁杂、曲折”变得“平滑但依然有曲折点”,换句话说就是不同段的数据特征依然保留着强烈的不同特点,有点像美国的联邦制,在整体统一的情况下,各州依然有较强的独立性。而L2正则由于其是参数的平方项相加,会让原拟合model的阶段性特点不过于明显,而具有更强的平滑性(从圆和正方形的形态可以看出)。这也就是为什么我们说L1正则比L2正则更具有稀疏性的原因。当然从概率分布角度去分析——L1服从laplace分布、L2服从正态分布,为什么两者导致模型的稀疏性不同也是可以的,不过可能要在数学上定义一些东西。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值