初步理解正则化与L1 ,L2范数

最新推荐文章于 2023-03-12 10:41:11 发布

catEyesL

最新推荐文章于 2023-03-12 10:41:11 发布

阅读量374

点赞数 1

分类专栏：机器学习文章标签：正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqMiSa/article/details/97136531

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在线性回归的问题中就出现了一个后面学习也常用的概念正则化，这里对它进行一个简单总结。

统计学习方法中描述到模型选择的典型方法是正则化，正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大，比如，正则化项可以是模型参数向量的范数。

范数的定义为:假设x是一个向量，则它的Lp范数为：

正则化一般形式为:

其中，第1项是经验风险（损失函数），第2项是正则化项，λ≥0为调整两者之间关系的系数。正则化项可以取不同的形式，第1项的经验风险较小的模型可能较复杂（有多个非零参数），这时第2项的模型复杂度会较大，正则化的作用是选择经验风险与模型复杂度同时较小的模型。

列如，回归问题中，损失函数是均方误差(为求导方便多乘一个1/2)

如果用梯度下降求解：

则参数更新为：

加入正则化项（参数向量的L2范数）后，损失函数变为：

再用梯度下降求解：

则参数更新公式为：

由于wi越大的，相应减去的也会更大，而wi较小的，相应减去也会更小，这样就有效降低了模型最终拟合的复杂度，防止了某些特征的系数过大导致拟合异常的现象。

当然，对于同样的问题，正则化项也可以是参数向量的 L1范数：

不过这时候参数更新方程变为了：

它跟使用L2正则不同的是，使用L1正则每次更新参数时会减去一个常数，而使用L2正则每次减去的是跟参数大小成比例的，也就是参数越大减去的越大。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。