正则化理论

1.范数

在介绍正则化之前,先来了解一下范数。在数学上,范数包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是,对应向量范数,向量空间中的向量都是有大小的,这个大小1如何度量,就是用范数来度量的,不同的范数都可以来度量这个大小,就好比米和尺都可以度量远近一样;对于矩阵范数,我们可以通过运算 AX = B ,可以将向量X变化为B,矩阵范数就是用来度量这个变化大小的。

以下有几种向量范数的定义和含义:

L - P范数
与闵可夫基距离定义一样,L-P范数不是一个范数,而是一组范数,其定义如下:
在这里插入图片描述
根据P的变化,范数也有不同的变化,一个经典的有关P范数的变化图如下:
在这里插入图片描述
上图表示了p从无穷到0变化时,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。

L - 0范数
当 P=0 时,也就是L0范数,由上面可知,L0范数并不是一个真正的范数,它主要被用来度量向量中非零元素的个数。用上面的 L-P 定义可以得到 L-0 的定义为:
在这里插入图片描述

L1范数
当 P=1 时,也就是L1范数,它的定义如下:
在这里插入图片描述
表示向量x中非零元素的绝对值之和,即x与0之间的曼哈顿距离。

L2范数
当 P=2 时,也就是L2范数,它的定义如下:
在这里插入图片描述
表示向量元素的开方和再开平方,即x与0的欧式范数。

2.正则化的来源

正则化
正则化主要是用来控制模型的复杂度,从而减少过拟合,一般是在损失函数中加入惩罚项,即
在这里插入图片描述
其中,J(w;x,y)表示损失函数;w表示权重矩阵;x 表示样本;y表示标签;a表示控制正则化的强弱;Ω(w)表示惩罚项

过拟合
在这里插入图片描述
如上图所示,第三幅图就是过拟合的现象,即随着复杂度的增加,预测误差减小,但实际测试误差反而增大。在这种情况下,我们要减少一定的参数,即在损失函数的后面加上惩罚项。

常用的惩罚项
常用惩罚项一般使用L1范数与L2范数,即
在这里插入图片描述

3.为什么加入范数可以减少过拟合

为了获得良好的参数w,并让模型在训练、测试数据集上均表现良好,当模型复杂时,w较多,于是产生了过拟合现象,为了降低复杂度,可以考虑适当的减少参数w的数目(准确率会适当的下降),所以,一个很自然的想法,让参数w中的一些参数为0,即限制w中非零元素的个数。于是就产生了L0范数优化问题:
在这里插入图片描述
在实际应用中,由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,故被人认为是一个NP难问题。
于是产生另一种想法:让w中某些参数尽可能接近于0,即
在这里插入图片描述
所以,又有两个优化问题

在这里插入图片描述
接下来就是解优化问题:
①构造拉格朗日函数:
在这里插入图片描述
②令最优解为 w*,a*,则有
在这里插入图片描述

4.几何分析

在这里插入图片描述
如上图,这里的w1,w2都是模型的参数,要优化的目标参数,那个蓝色框内包含的区域就是解空间,我们是要在解空间中寻找使得目标函数最小的w1,w2。左边的图的解空间是个四边形,是由于采用了L1范数作为正则化的缘故。右边的图的解空间是圆的,是由于采用了L2范数正则化项的缘故。

总结

正则化的目的:防止过拟合!
正则化的本质:约束要优化的参数

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值