简单解释正则化为什么能减小模型复杂度

理论上,从VC维的角度可以解释,正则化能直接减少模型复杂度。(公式理论略)

直观上,对L1正则化来说,求导后,多了一项η * λ * sgn(w)/n,在w更新的过程中:

当w为正时,新的w减小,当w为负时,新的w增大,意味着新的w不断向0靠近,即减小了模型复杂度。(PS:也是为什么L1能得到稀疏解的一个参考答案)

对L2正则化来说,一方面,w的更新过程为:

若没有L2,则w前面的系数为1,η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。

模型的过拟合是因为考虑了过多的“不合适”样本点,这样,求导的时候,导数值很大,而自变量的值可大可小,所以意味着系数w要很大,所以当我们让w减少的时候,即意味着忽略这些样本点,即减小了模型的复杂度,解决了过拟合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值