模型训练中的L1与L2正则化

原创

于 2025-09-26 08:23:13 发布 · 1.8k 阅读

·

35

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#神经网络 #深度学习 #人工智能 #卷积神经网络

模型训练中的L1正则化和L2正则化，这是一个机器学习中非常核心且实用的概念。

核心思想：对抗过拟合

首先，为什么需要正则化？
当模型过于复杂（例如参数过多、模型结构太强）时，它可能会过度学习训练数据中的细节和噪声，导致在训练集上表现极好，但在未见过的测试集上表现很差。这种现象称为过拟合。

正则化的核心目的就是防止过拟合，通过向模型的损失函数中添加一个“惩罚项”，来限制模型参数的大小，从而鼓励模型变得更简单、更泛化。

1. L2正则化 - 权重衰减

基本概念

L2正则化是最常见的正则化形式。它在原始的损失函数上增加了一个与所有权重参数的平方和成正比的项。

别名：权重衰减、岭回归（用于线性回归时）。
惩罚项：所有模型权重（参数）的平方和。数学公式为：λ * Σ(wi²)，其中 wi 是单个权重，λ 是控制正则化强度的超参数。

修改后的损失函数

最终损失 = 原始损失（如均方误差、交叉熵） + (λ/2) * Σ(wi²)

（注意：有些写法会包含一个 1/2 的系数，这是为了后续求导方便，本质不变。）

工作原理与效果

作用机制：L2惩罚项会“惩罚”那些特别大的权重值。因为平方项的存在，大的权重会比小的权重受到更严厉的惩罚。为了最小化总损失，优化算法会倾向于让所有权重都均匀地变小，而不是让某些权重变得特别大。
几何解释：在优

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。