迅速理解L-p范数原理

____________咸粥

已于 2022-08-27 15:09:58 修改

阅读量3.8k

点赞数 1

分类专栏：日常学习小结文章标签：机器学习正则化

于 2020-12-18 17:09:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WB18002337539/article/details/111377872

版权

日常学习小结专栏收录该内容

10 篇文章

订阅专栏

本文介绍了L-p范数的定义，其作为正则项加入损失函数可解决过拟合问题，使分类边界更平滑。还阐述了L1范数和L2范数的区别，L1范数除平滑边界外还有稀疏作用。此外，解释了正则项只对样本权重限制，不限制偏置项b的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 定义

L-p范数： $\sum_{1}^{n}((|x_i|)^p)^\frac{1}{p}$

2 作用及原理

作用：作为正则项（平滑项）加入损失函数中，可使得分类边界更为平滑，从而解决过拟合的问题。

对此我们可以很直观的理解，一个平滑的函数对于噪声数据（ $x_i+Δ(x)$ ）,其受噪声部分 $Δ (x)$ 的影响不会很大。反之，如果训练出的函数不平滑的话，则其对于噪声数据不会有很好的预测效果

平滑机理：（新损失函数 = 原损失函数 + 正则项）

若训练完成后只满足原损失函数最小，虽效果较好，但容易过拟合。（红色曲线）
加入正则项后，相当于多了一项限制条件，训练完成后自然达不到原损失函数最小，从而使得曲线更为圆滑（即牺牲一部分准确率，来换取更平滑的曲线、更高的泛化性能）。（绿色曲线）

在这里插入图片描述

3 L1范数和L2范数的区别

L1范数除平滑分类边界之外，还具有稀疏（其中一些样本的权重被学习为0）的作用，以下通过一个例子讲解。

一般地，

预测函数值 $y_i'=\sum_{j=1}^{n}w_j\cdot x_j+b$ ：n个权重，1个偏置项
损失函数 $Loss=\sum_{i=1}^{m}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ||w||_p$ （损失函数以均方误差为例，m为训练样本数）

假设训练样本只有2个

当采用L1范数时，假设损失函数 $Loss=\sum_{i=1}^{2}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ(|w_1|+|w_2|)$
当采用L2范数时，假设损失函数 $Loss=\sum_{i=1}^{2}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ(|w_1|^2+|w_2|^2)^\frac{1}{2}$

限制条件：正则化项 ≤ 1

则对于L1、L2正则化项，分别有图形**（左 L2正则化，右 L1正则化）**
在这里插入图片描述
图中蓝色圆环中心点代表原损失函数最小点，蓝色曲线和正则化区域的交点代表最终的结果点。

当正则项为L1范数时（右），从概率的角度来说，蓝色圆环最容易和正则化区域的各个顶点及其附近的点相交，此时w1和w2中其中一个接近0，另外一个接近1。训练数据有很多时，正则化区域（多维区域）的顶点也会变多，最终训练完成时，其中一部分样本的权重会被训练成0，从而达到稀疏的效果。反之，当正则项为L1范数时（左）则不存在该情况。

4 为什么正则项只对样本权重进行限制，而不限制偏置项b？

这是因为偏置b只影响训练函数的上下移动，而对函数的平滑程度、形状没有影响
在这里插入图片描述

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。