机器学习---正则化方法

哈尔滨张谦蛋

已于 2023-10-12 17:36:03 修改

阅读量222

点赞数 4

分类专栏：机器学习-point 研究生学习-AI 文章标签：机器学习人工智能

于 2023-10-11 20:52:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46521375/article/details/133778657

版权

研究生学习-AI 同时被 2 个专栏收录

24 篇文章 4 订阅

订阅专栏

机器学习-point

4 篇文章 0 订阅

订阅专栏

正则化方法

一、正则化的主要方法有：

L2正则化
dropout
数据增广
early stopping
Bagging
在样本中增加噪声

L2正则化是一种常用的正则化方法，也被称为权重衰减。它通过在损失函数中添加一个正则化项，来惩罚模型的复杂度，从而防止过拟合。L2正则化的正则化项是模型参数的平方和，即：

L2正则化项 = λ * ||w||^2

其中，λ是正则化强度超参数，w是模型参数。

L2正则化的作用是使得模型参数更加平滑，避免出现过于复杂的模型。在神经网络中，L2正则化可以通过在反向传播时对梯度进行调整来实现。

模型复杂度是由模型的参数量和参数的大小范围所决定的

L1、L2正则化是降低参数的大小范围

Dropout是降低参数量，这样神经元的输入会随机的被失活，下一层神经元不会完全的依赖某一个神经元的输入，这样每个神经元的权重都会降低，这样模型的复杂度也会随之降低，这样Dropout也起到了L2正则化的作用。

L1通常用于增加稀疏性，L2一般用于减小“复杂度”，且L2有唯一解

如果用标准的梯度下降法或是随机梯度下降，那么L2正则化和权重衰减是等价的。这也是我在视频里讲到的。如果是用Adam这样的优化后的算法，那么权重衰减和L2正则化就不等价了, 这个时候用权重衰减效果更好

如何解决过拟合问题？L1、L2正则化及Dropout正则化讲解_哔哩哔哩_bilibili

理解二：

二、正则化的概念

凡是能解决模型泛化误差而不是训练误差的方法，都被称为正则化。
模型的泛化误差主要是由模型过拟合引起的，所以正则化的各种方法用于解决模型过拟合的问题。

三、避免模型过拟合----L1正则化和L2正则化

L1和L2正则化的核心思想就是限制模型参数的取值范围。模型取值范围大同样可以训练出一个泛化能力强的模型，那为什么要限制模型参数的取值范围呢？

模型取值范围大同样可以训练出一个泛化能力强的模型，但是出现过拟合的几率也大大提升了（可以选择的范围大，自然就选了一整套相互配合起来可以让损失最小的参数，但是这些参数有可能只是在迎合训练集）。另一方面，参数取得太大会放大输入模型的样本之中的噪声，让输出结果失真。

综上所述，无论是从参数取值范围大会提高过拟合几率的角度来看，还是从参数太大会放大噪声的角度来看，参数取值范围太大都是非常不利的，所以需要对范围进行限制。

明白了L1和L2正则化的核心思想就是限制模型参数的取值范围之后，来解决下一个问题：如何减小模型参数的取值范围？

首先，理解一下L1和L2正则化中的L1和L2是什么意思。L1和L2就是L1范数和L2范数。L1范数是我们非常熟悉的曼哈顿距离，L2范数也是非常熟悉的欧式距离。对于一个向量 ω 而言，其L1范数和L2范数分别是：

在损失函数之中，在尾项之中加入L2正则项，为梯度下降加入减小权重的目标，就可以在减小损失的同时减小权重。假设原本的损失函数是ι ( ω , b )，改正之后的损失函数是：

其中，λ \lambdaλ是一个超参数，用来控制正则项的惩罚力度。越大，则最终权重会越小。

L1范数和L2范数作为正则项的区别在于，L1范数可以带来稀疏性。从L1范数的图像之中可以看出，L1正则化之后的损失函数想要最小

化，ω的取值相比起L2正则化更容易接近或者落在坐标轴上，这意味着会将某些权重的值设置为0或者接近于0，权重消失或者接近于消失，就是所谓“带来稀疏性”。

由于λη是小于1的，所以每一次梯度下降的时候，权重都会衰减。

故L2正则化也称为权重衰减。

参考二原文链接：https://blog.csdn.net/weixin_52808620/article/details/130599748

哈尔滨张谦蛋

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习---正则化方法

模型取值范围大同样可以训练出一个泛化能力强的模型，但是出现过拟合的几率也大大提升了（可以选择的范围大，自然就选了一整套相互配合起来可以让损失最小的参数，但是这些参数有可能只是在迎合训练集）。Dropout是降低参数量，这样神经元的输入会随机的被失活，下一层神经元不会完全的依赖某一个神经元的输入，这样每个神经元的权重都会降低，这样模型的复杂度也会随之降低，这样Dropout也起到了L2正则化的作用。在损失函数之中，在尾项之中加入L2正则项，为梯度下降加入减小权重的目标，就可以在减小损失的同时减小权重。
复制链接

扫一扫

专栏目录

哈尔滨张谦蛋 CSDN认证博客专家 CSDN认证企业博客

码龄4年

46: 原创

2万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

796: 积分

1530: 粉丝

329: 获赞

18: 评论

286: 收藏

私信

关注

热门文章

分类专栏

最新评论

微表情检测（三）----基于光流特征的微表情检测
哈尔滨张谦蛋: 基于光流的源码有很多的大部分文章都有开源，只不过这篇文章没有源码。
微表情检测（三）----基于光流特征的微表情检测
我是恶魔dark: 你好，看了你的讲解，很详细，想问一下，网络有公开的基于光流法的微表情识别代码吗
深度学习之图像分类（八）InceptionV4论文翻译总结
简单简单小白: 大佬讲述的很清楚，总结的也很详细，让我通俗易懂，又以实例证明技术点的实用性及可操作性，让我受益良多，感谢博主的分享
深度学习之图像分类（八）InceptionV4论文翻译总结
CSDN-Ada助手: 非常祝贺您开始了博客创作的旅程！标题中提到的"InceptionV4论文翻译总结"让我对您的文章产生了浓厚的兴趣。深度学习与图像分类是当今研究的热点领域，而您的博客似乎能够为我们提供关于InceptionV4的深入理解。不过，如果我可以提一个创作建议的话，希望您在文章中能够更多地展示自己对于该论文的思考和见解，这样能够使读者更好地了解您对于该主题的研究。期待您继续创作更多优质的博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
深度学习之目标检测（一）R-CNN翻译与总结（一）
CSDN-Ada助手: 这是一篇很棒的博客，深度学习的目标检测一直是一个热门话题，而你对R-CNN的翻译与总结也让人受益匪浅。希望你可以继续分享更多关于深度学习目标检测的内容，比如Faster R-CNN、YOLO等等，这些都是目前非常流行的目标检测方法。另外，你也可以探讨一下在实际项目中如何选择合适的目标检测算法、模型调优和数据增强等实用技能，这些内容也会给读者带来很多启发和帮助。期待你的更多精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。