迅速理解L-p范数原理

1 定义

L-p范数: ∑ 1 n ( ( ∣ x i ∣ ) p ) 1 p \sum_{1}^{n}((|x_i|)^p)^\frac{1}{p} 1n((xi)p)p1


2 作用及原理

作用:作为正则项(平滑项)加入损失函数中,可使得分类边界更为平滑,从而解决过拟合的问题。

对此我们可以很直观的理解,一个平滑的函数对于噪声数据( x i + Δ ( x ) x_i+Δ(x) xi+Δ(x)),其受噪声部分 Δ ( x ) Δ(x) Δ(x) 的影响不会很大。反之,如果训练出的函数不平滑的话,则其对于噪声数据不会有很好的预测效果

平滑机理:(新损失函数 = 原损失函数 + 正则项)

  • 若训练完成后只满足原损失函数最小,虽效果较好,但容易过拟合。(红色曲线)
  • 加入正则项后,相当于多了一项限制条件,训练完成后自然达不到原损失函数最小,从而使得曲线更为圆滑(即牺牲一部分准确率,来换取更平滑的曲线、更高的泛化性能)。(绿色曲线)

在这里插入图片描述


3 L1范数和L2范数的区别

L1范数除平滑分类边界之外,还具有稀疏(其中一些样本的权重被学习为0)的作用,以下通过一个例子讲解。

一般地,

  • 预测函数值 y i ′ = ∑ j = 1 n w j ⋅ x j + b y_i'=\sum_{j=1}^{n}w_j\cdot x_j+b yi=j=1nwjxj+b:n个权重,1个偏置项
  • 损失函数 L o s s = ∑ i = 1 m ( ∑ j = 1 n w j ⋅ x j + b − y i ) 2 + μ ∣ ∣ w ∣ ∣ p Loss=\sum_{i=1}^{m}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ||w||_p Loss=i=1m(j=1nwjxj+byi)2+μ∣∣wp(损失函数以均方误差为例,m为训练样本数)

假设训练样本只有2个

  • 当采用L1范数时,假设损失函数 L o s s = ∑ i = 1 2 ( ∑ j = 1 n w j ⋅ x j + b − y i ) 2 + μ ( ∣ w 1 ∣ + ∣ w 2 ∣ ) Loss=\sum_{i=1}^{2}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ(|w_1|+|w_2|) Loss=i=12(j=1nwjxj+byi)2+μ(w1+w2)
  • 当采用L2范数时,假设损失函数 L o s s = ∑ i = 1 2 ( ∑ j = 1 n w j ⋅ x j + b − y i ) 2 + μ ( ∣ w 1 ∣ 2 + ∣ w 2 ∣ 2 ) 1 2 Loss=\sum_{i=1}^{2}(\sum_{j=1}^{n}w_j\cdot x_j+b-y_i)^2+μ(|w_1|^2+|w_2|^2)^\frac{1}{2} Loss=i=12(j=1nwjxj+byi)2+μ(w12+w22)21

限制条件:正则化项 ≤ 1

则对于L1、L2正则化项,分别有图形**(左 L2正则化,右 L1正则化)**
在这里插入图片描述
图中蓝色圆环中心点代表原损失函数最小点,蓝色曲线和正则化区域的交点代表最终的结果点。

当正则项为L1范数时(右),从概率的角度来说,蓝色圆环最容易和正则化区域的各个顶点及其附近的点相交,此时w1和w2中其中一个接近0,另外一个接近1。训练数据有很多时,正则化区域(多维区域)的顶点也会变多,最终训练完成时,其中一部分样本的权重会被训练成0,从而达到稀疏的效果。反之,当正则项为L1范数时(左)则不存在该情况。


4 为什么正则项只对样本权重进行限制,而不限制偏置项b?

这是因为偏置b只影响训练函数的上下移动,而对函数的平滑程度、形状没有影响
在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值