机器学习中使用正则化 L1范数和L2范数的原因

最新推荐文章于 2025-05-12 02:16:32 发布

会意

最新推荐文章于 2025-05-12 02:16:32 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习文章标签：机器学习正则化 L1范数 L2范数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mooneve/article/details/80469179

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

在机器学习中，损失函数后面通常都会添加一个额外项，用于防止过拟合提高算法的泛化能力，称为正则化惩罚（regularization penalty）。

为什么要添加这一项呢？大家可以想一下，原来没有这一项时，损失函数 $L$ 的公式可以表示如下：

$\frac{1}{n} \sum_{i=1}^n L_i$

上面这个公式有一个问题，假设有一个数据集和一个权重集 $W$ 能够正确地分类每个数据（即所有的边界都满足，对于所有的 $i$ 都有 $L_i = 0$ ），那么这个W是不唯一的，可能有很多相似的 $W$ 都能正确地分类所有的数据。一个简单的例子：如果 $W$ 能够正确分类所有数据，即对于每个数据，损失值都是0。那么当 $\lambda>1$ 时，任何数乘 $\lambda W$ 都能使得损失值为0，因为这个变化将所有分值的大小都均等地扩大了，所以它们之间的绝对差值也扩大了。

换句话说，我们希望能向某些特定的权重 $W$ 添加一些偏好，对其他权重则不添加，以此来消除模糊性。这一点是能够实现的，方法是向损失函数增加一个正则化惩罚（regularization penalty），最常用的正则化惩罚就是L1范数和L2范数。

L1范数是对所有权重 $W$ 的绝对值求和：

$\frac{\lambda}{n} \sum_{i,j}|W_{i,j}|$

L2范数是对所有权重 $W$ 进行逐元素的平方求和：

$\frac{\lambda}{2n}\sum_{i,j}W_{i,j}^2$

故损失函数的完整表达公式为：

$\frac{1}{n} \sum_{i=1}^n L_i + R(W)$

关于L1范数和L2范数的具体细节可以参考以下几篇文章：

正则化方法：L1和L2 regularization、数据集扩增、dropout
机器学习中正则化项L1和L2的直观理解
 理解：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。