L1与L2理论推导和实战运用

一、常用的向量范数

1、L_0范数:||X||_0=X_i,(X_i\neq 0)即为向量X中非0的元素个数,例如:X=(1,0,4,5,19)^T

||X||_0=4(1,4,5,19)

2、L_1范数:||X||_1 = \sum_{i=1}^{n}|X_i|,即X于0之间的曼哈顿距离,例如: \large X=(1,0,4,5,19)^T ,\large ||X||_1=1+4+5+19=29,即每个元素的绝对值之和。

3 、 \large L_2 范数 ||X||_2 = \sqrt{\sum_{i=1}^{n}Xi^2},即X与0之间的欧式范数,例如:X=(1,0,4,5,19)^T

||X||_2 = \sqrt{1^2+0^2+4^2+5^2+19^2}

4、L_P 范数:||X||_p = \sqrt[p]{\sum_{i=1}^{n}X_i^p}

二、正则化的来源

1、正则化主要是用来控制模型的复杂度,从而减少过拟合,一般是是在损失函数中加入惩罚项,即:

                                  F(W_j,X,Y)=J(W_j,X,Y)+\alpha \Omega (W)

J(W_j,X,Y)  是原始的损失函数,\alpha \Omega (W)   是惩罚项,其中:

     W :权重

     X:样本

     Y:标签

     \alpha:是控制正则化的强弱

如有:x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

            y = [2.83, 29.53, 54.52, 5.57, 38.26, 103.92, 33.15, 61.56, 129.54, 49.75, 127.59])

现在我们对其进行拟合。

a的拟合函数:y_a=-5.064e-18 x - 1.172e-17 x + 1.655e-16 x + 3.297e-15 x 19 18 17 16 + 3.721e-14 x + 3.015e-13 x + 1.423e-12 x - 6.336e-12 x 15 14 13 12 - 2.577e-10 x - 3.756e-09 x - 3.62e-08 x - 1.973e-07 x 11 10 9 8 7 + 7.363e-07 x + 3.288e-05 x + 0.0004003 x + 0.001814 x - 0.0214 x 6 5 4 3 2 - 0.392 x - 0.2607 x + 37.9 x - 194.5 x + 334.3 x - 150.4 x + 2.83

b的拟合函数y_b=9.424 x + 10.72

训练的准确率:a >b  

模型的复杂度:a>b 

此时我们对测试集进行测试,发现b的准确率大于a,a的模型存在过拟合。即因为a的模型复杂度太高,在训练集上准确率表现很好,但是测试数据上表现很差,这就是过拟合现象。

此时正则化正式登场~

2、正则化:

  • L1正则化:

F(W_j,X,Y)=J(W_j,X,Y)+\alpha |||X|_1

  • L2正则化:

F(W_j,X,Y)=J(W_j,X,Y)+\alpha |||X|_2

3、那么为什么加入L1、L2能降低复杂度,从而防止模型过拟合?

三、理论分析证明L1,L2能降低模型复杂度

1、机型学习的目的,就是找到一个w_i参数使得模型在训练数据集和测试数据集上均表现良好,当模型复杂时,w参数过多,如a模型(有22个参数),此时可以适当的减少w参数。

 此时就有一个想法让w,w=(w_1,w_2,w_3,....w_n)^T某些w_i=0 (i=n),用L0范数表示,于是优化问题出现:

 这个优化问题,无法解。那么另外一个思路,就是我是否能使得w某些w_i近可能接近于0。

存在:|w_i|+|w_2|+...|w_n| \leqslant C,同时也存在一个这样的一个C,使得\sqrt{w_1^2+w_2^2+...w_n^2}\leqslant C

 此时我们会发现 |w_i|+|w_2|+...|w_n| 不就是L1范数吗,同理\sqrt{w_1^2+w_2^2+...w_n^2} 不就是L2范数吗?

所以就存在这样的优化问题:

 2、解以上优化问题

  • 构造拉格朗日函数

                    L(w,\alpha ) =J(w;X,y)+\alpha(||w||_1-C)

                   L(w,\alpha ) =J(w;X,y)+\alpha(||w||_2-C)  ,对以上两个函数进行求导则存在这样的一个最优解 w^* , \alpha ^*.

则有 L'(w^*,\alpha ^*) = 0,L'(w^*,\alpha ^*) = 0

所以:L(w^*,\alpha ^*) = J(w^*;x,y) + \alpha ^*(||w||_1-C)

             = minJ(w;x,y)+\alpha ^*||w||_1-\alpha ^*C

            \simeq\underset{w}{min}J(w;X,j)+\alpha ^*||w||_1

这个就是L1正则化

同理,可得到L2正则

四、L1正则化于L2正则化的几何理解

1、对于F(w;x,y) = J(w;,x,y) + \alpha ||w||_1

=J(w;x,y) + \alpha \sum_{i=1}^{n}|w_i|

2、在二维平面有:

=J(w;x,y) + \alpha *(|w_1|+|w_2|)

则有:|w_1|+|w_2|\leqslant C,即 : |x| + |y| <=C

                                                               

 根据以上4个条件和J(w;x,y) ,两个函数存在一个交点w^*,我们就能画出:

                                                   

 这里要使得目标函数最小,这两个函数肯定存在一个交点,都满足。所以这个就是w^*这个交点的由来。

 这次w_1=0,w_2=w^*,使得模型变得简单,从而达到减少过拟合的效果。这个可以看出,为什么L1可以用来做特征选择的原因。他使得w_1=0

同理:我们同同样可以这样理解L2正则化:

                                           

 L2也可以使得模型减小过拟合的可能。

                        

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值