L1与L2理论推导和实战运用

最新推荐文章于 2024-09-23 04:15:11 发布

努力的乞丐

最新推荐文章于 2024-09-23 04:15:11 发布

阅读量432

点赞数 1

文章标签：算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ouzhong11/article/details/127506202

版权

一、常用的向量范数

1、 $L_0$ 范数: $||X||_0$ = $X_i$ ，（ $X_i\neq 0$ ）即为向量X中非0的元素个数，例如: $X=(1,0,4,5,19)^T$

$||X||_0=4$ （1,4,5,19）

2、 $L_1$ 范数: $||X||_1 = \sum_{i=1}^{n}|X_i|$ ，即X于0之间的曼哈顿距离，例如： $\large X=(1,0,4,5,19)^T$ , $\large ||X||_1=1+4+5+19=29$ ,即每个元素的绝对值之和。

3 、 $\large L_2$ 范数 ： $||X||_2 = \sqrt{\sum_{i=1}^{n}Xi^2}$ ，即X与0之间的欧式范数，例如： $X=(1,0,4,5,19)^T$

$||X||_2 = \sqrt{1^2+0^2+4^2+5^2+19^2}$

4、 $L_P$ 范数： $||X||_p = \sqrt[p]{\sum_{i=1}^{n}X_i^p}$

二、正则化的来源

1、正则化主要是用来控制模型的复杂度，从而减少过拟合，一般是是在损失函数中加入惩罚项，即：

$F(W_j,X,Y)=J(W_j,X,Y)+\alpha \Omega (W)$

$J(W_j,X,Y)$ 是原始的损失函数， $\alpha \Omega (W)$ 是惩罚项，其中：

W ：权重

X：样本

Y：标签

$\alpha$ ：是控制正则化的强弱

如有：x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

y = [2.83, 29.53, 54.52, 5.57, 38.26, 103.92, 33.15, 61.56, 129.54, 49.75, 127.59]）

现在我们对其进行拟合。

a的拟合函数： $y_a$ =-5.064e-18 x - 1.172e-17 x + 1.655e-16 x + 3.297e-15 x 19 18 17 16 + 3.721e-14 x + 3.015e-13 x + 1.423e-12 x - 6.336e-12 x 15 14 13 12 - 2.577e-10 x - 3.756e-09 x - 3.62e-08 x - 1.973e-07 x 11 10 9 8 7 + 7.363e-07 x + 3.288e-05 x + 0.0004003 x + 0.001814 x - 0.0214 x 6 5 4 3 2 - 0.392 x - 0.2607 x + 37.9 x - 194.5 x + 334.3 x - 150.4 x + 2.83

b的拟合函数： $y_b$ =9.424 x + 10.72

训练的准确率：a >b

模型的复杂度：a>b

此时我们对测试集进行测试，发现b的准确率大于a，a的模型存在过拟合。即因为a的模型复杂度太高，在训练集上准确率表现很好，但是测试数据上表现很差，这就是过拟合现象。

此时正则化正式登场~

2、正则化：

L1正则化：

$F(W_j,X,Y)=J(W_j,X,Y)+\alpha |||X|_1$

L2正则化：

$F(W_j,X,Y)=J(W_j,X,Y)+\alpha |||X|_2$

3、那么为什么加入L1、L2能降低复杂度，从而防止模型过拟合？

三、理论分析证明L1,L2能降低模型复杂度

1、机型学习的目的，就是找到一个 $w_i$ 参数使得模型在训练数据集和测试数据集上均表现良好，当模型复杂时，w参数过多，如a模型(有22个参数)，此时可以适当的减少w参数。

此时就有一个想法让w， $w=(w_1,w_2,w_3,....w_n)^T$ 某些 $w_i$ =0 （i=n)，用L0范数表示，于是优化问题出现：

这个优化问题，无法解。那么另外一个思路，就是我是否能使得w某些 $w_i$ 近可能接近于0。

存在： $|w_i|+|w_2|+...|w_n| \leqslant C$ ,同时也存在一个这样的一个C，使得 $\sqrt{w_1^2+w_2^2+...w_n^2}\leqslant C$

此时我们会发现 $|w_i|+|w_2|+...|w_n|$ 不就是L1范数吗，同理 $\sqrt{w_1^2+w_2^2+...w_n^2}$ 不就是L2范数吗？

所以就存在这样的优化问题：

2、解以上优化问题

构造拉格朗日函数

$L(w,\alpha ) =J(w;X,y)+\alpha(||w||_1-C)$

$L(w,\alpha ) =J(w;X,y)+\alpha(||w||_2-C)$ ,对以上两个函数进行求导则存在这样的一个最优解 $w^* , \alpha ^*$ .

则有 $L'(w^*,\alpha ^*) = 0,L'(w^*,\alpha ^*) = 0$

所以： $L(w^*,\alpha ^*) = J(w^*;x,y) + \alpha ^*(||w||_1-C)$

= $minJ(w;x,y)+\alpha ^*||w||_1-\alpha ^*C$

$\simeq$ $\underset{w}{min}J(w;X,j)+\alpha ^*||w||_1$

这个就是L1正则化

同理，可得到L2正则

四、L1正则化于L2正则化的几何理解

1、对于 $F(w;x,y) = J(w;,x,y) + \alpha ||w||_1$

= $J(w;x,y) + \alpha \sum_{i=1}^{n}|w_i|$

2、在二维平面有：

= $J(w;x,y) + \alpha *(|w_1|+|w_2|)$

则有： $|w_1|+|w_2|\leqslant C$ ，即： $|x| + |y| <=C$

根据以上4个条件和J(w;x,y) ，两个函数存在一个交点 $w^*$ ，我们就能画出：

这里要使得目标函数最小，这两个函数肯定存在一个交点，都满足。所以这个就是 $w^*$ 这个交点的由来。

这次 $w_1=0,w_2=w^*$ ,使得模型变得简单，从而达到减少过拟合的效果。这个可以看出，为什么L1可以用来做特征选择的原因。他使得 $w_1=0$ 。

同理：我们同同样可以这样理解L2正则化：

L2也可以使得模型减小过拟合的可能。

努力的乞丐

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。