正则化理论

最新推荐文章于 2024-05-27 16:28:20 发布

伴君

最新推荐文章于 2024-05-27 16:28:20 发布

阅读量452

点赞数 1

分类专栏：小知识文章标签：机器学习正则化

本文链接：https://blog.csdn.net/AAAA202012/article/details/119999623

版权

小知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.范数

在介绍正则化之前，先来了解一下范数。在数学上，范数包括向量范数和矩阵范数，向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是，对应向量范数，向量空间中的向量都是有大小的，这个大小1如何度量，就是用范数来度量的，不同的范数都可以来度量这个大小，就好比米和尺都可以度量远近一样；对于矩阵范数，我们可以通过运算 AX = B ,可以将向量X变化为B，矩阵范数就是用来度量这个变化大小的。

以下有几种向量范数的定义和含义：

L - P范数
与闵可夫基距离定义一样，L-P范数不是一个范数，而是一组范数，其定义如下：
在这里插入图片描述
根据P的变化，范数也有不同的变化，一个经典的有关P范数的变化图如下：

上图表示了p从无穷到0变化时，三维空间中到原点的距离（范数）为1的点构成的图形的变化情况。

L - 0范数
当 P=0 时，也就是L0范数，由上面可知，L0范数并不是一个真正的范数，它主要被用来度量向量中非零元素的个数。用上面的 L-P 定义可以得到 L-0 的定义为：
在这里插入图片描述

L1范数
当 P=1 时，也就是L1范数，它的定义如下：
在这里插入图片描述
表示向量x中非零元素的绝对值之和，即x与0之间的曼哈顿距离。

L2范数
当 P=2 时，也就是L2范数，它的定义如下：
在这里插入图片描述
表示向量元素的开方和再开平方，即x与0的欧式范数。

2.正则化的来源

正则化
正则化主要是用来控制模型的复杂度，从而减少过拟合，一般是在损失函数中加入惩罚项，即
在这里插入图片描述
其中，J(w;x,y)表示损失函数；w表示权重矩阵；x 表示样本；y表示标签；a表示控制正则化的强弱；Ω(w)表示惩罚项

过拟合
在这里插入图片描述
如上图所示，第三幅图就是过拟合的现象，即随着复杂度的增加，预测误差减小，但实际测试误差反而增大。在这种情况下，我们要减少一定的参数，即在损失函数的后面加上惩罚项。

常用的惩罚项
常用惩罚项一般使用L1范数与L2范数，即
在这里插入图片描述

3.为什么加入范数可以减少过拟合

为了获得良好的参数w，并让模型在训练、测试数据集上均表现良好，当模型复杂时，w较多，于是产生了过拟合现象，为了降低复杂度，可以考虑适当的减少参数w的数目(准确率会适当的下降）,所以，一个很自然的想法，让参数w中的一些参数为0，即限制w中非零元素的个数。于是就产生了L0范数优化问题：
在这里插入图片描述
在实际应用中，由于L0范数本身不容易有一个好的数学表示形式，给出上面问题的形式化表示是一个很难的问题，故被人认为是一个NP难问题。
于是产生另一种想法：让w中某些参数尽可能接近于0,即

所以，又有两个优化问题

在这里插入图片描述
接下来就是解优化问题：
①构造拉格朗日函数：

②令最优解为 w^*，a^*,则有

4.几何分析

在这里插入图片描述
如上图，这里的w1,w2都是模型的参数，要优化的目标参数，那个蓝色框内包含的区域就是解空间，我们是要在解空间中寻找使得目标函数最小的w1,w2。左边的图的解空间是个四边形，是由于采用了L1范数作为正则化的缘故。右边的图的解空间是圆的，是由于采用了L2范数正则化项的缘故。

总结

正则化的目的：防止过拟合！
正则化的本质：约束要优化的参数

伴君

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
正则化理论

1.范数在介绍正则化之前，先来了解一下范数。在数学上，范数包括向量范数和矩阵范数，向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是，对应向量范数，向量空间中的向量都是有大小的，这个大小1如何度量，就是用范数来度量的，不同的范数都可以来度量这个大小，就好比米和尺都可以度量远近一样；对于矩阵范数，我们可以通过运算 AX = B ,可以将向量X变化为B，矩阵范数就是用来度量这个变化大小的。以下有几种向量范数的定义和含义：L - P范数与闵可夫基距离定义一样，L-P范数
复制链接

扫一扫

专栏目录