机器学习中关于正则项的一些摘抄

L0范数——稀疏表示,非零参数的个数。但是L0范数是NP hard问题,搜索很费劲。L1范数是L0范数的最优化近似,L1范数是L0范数的最紧的凸松驰(比如函数存在多个局部极小值,我们可以松弛成凸函数,只有一个最小值),反正就是L0不能优化,L1可以优化,L1可以代替L0.L1是绝对值之和,把W中有些项优化为0.而L2是W每一项的平方和开方,结果是使得每一项的参数都比较小。可以防止过拟合

为什么L2范数可以防止过拟合?
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。
为什么越小的参数说明模型越简单?
限制了参数很小,实际上就限制了多项式某些分量的影响很小(看上面线性回归的模型的那个拟合的图),这样就相当于减少参数个数。
——或者也可以说W每一项都小,某点的导数就小,波动的范围就小,而过拟合就是和许多点拟合。见下面一个问题
为什么过拟合的时候系数会很大?
过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。
总结:
L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。
L1是假设参数服从双指数分布,利于保证权值向量的稀疏性;L2是假设参数服从高斯分布,利于防止过拟合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值