范数与正则化

最新推荐文章于 2022-05-18 13:13:36 发布

进击的路飞桑

最新推荐文章于 2022-05-18 13:13:36 发布

阅读量1.6k

点赞数

分类专栏： # 深度学习基础

本文链接：https://blog.csdn.net/jgj123321/article/details/105840167

版权

深度学习基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

范数

比较1、2两个数字的大小，其结果显而易见。但我们如何比较（3,6）、（4,5）两个向量的大小呢？此时就用到了范数。范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：

L1范数

当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。

L2范数

当p=2时，是L2范数，表示某个向量中所有元素平方和再开方，也就是欧几里得距离公式。

举例说明

向量（3,6）的L2范数为 $\sqrt{3^{2}+6^{2}}=\sqrt{45}$ ，向量（4,5）的L2范数为 $\sqrt{4^{2}+5^{2}}=\sqrt{41}$ ，因此向量（3,6）的L2范数大于向量（4,5）的L2范数。

正则化

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种： ℓ1-norm 和 ℓ2-norm（ L1正则化和 L2正则化，或者 L1范数和 L2范数）。正则化项可以看做是损失函数的惩罚项。所谓“惩罚“是指对损失函数中的某些参数做一些限制，可以有效的防止模型过拟合。

L1正则化，Lasso回归

其损失函数如下所示：

$Loss_{L1}=Loss+\lambda \sum \left | \left | \omega \right | \right |$

上式中 $\omega$ 代表网络中需要训练的参数，超参数 $\lambda$ 需要人为指定。我们训练的目标是损失值最小化，即 $min(Loss_{L1})$ ，为了达到这个目的我们需要训练得到一组合适的 $\omega$ 值，使其能够保证 Loss 与 $\lambda \sum \left | \left | \omega \right | \right |$ 两项都足够小。

需要注意的是，L1正则化使用绝对值来约束参数，导致其在0点不可微分，这种情况下参数 $\omega$ 很有可能最终被约束为0。假设模型需要训练的参数空间是二维的，即只有 $\omega _{1}$ 与 $\omega _{2}$ 两个参数，则训练过程可用下图表示：

上图中正方形代表L1正则下的参数限制空间，彩色等值线代表参数优化空间，模型优化与训练其实就是在优化空间与限制空间的参数当中，寻找最优参数值的过程。从图中可以看出，优化空间与限制空间有很大的概率相交于坐标轴上，即使扩展到更高的参数维度，L1的参数限制空间始终存在尖锐的凸点，这意味着L1正则可能会将网络中某些参数约束为0，从而导致参数的稀疏化。如果需要做模型压缩，L1正则是一个不错的选择。

L2正则化，Ridge回归（岭回归）

其损失函数如下所示：

$Loss_{L1}=Loss+\lambda \sum \left | \left | \omega \right | \right |^{2}$

L2正则下的参数限制空间与参数优化空间的交点在参数0点的概率很低。因此L2正则化可以使参数尽可能的小，但不至于为0，这样既保留了模型的拟合能力，同时也增加了泛化能力，因此L2一般情况下更常用。如下图所示：

参考文章：https://www.jianshu.com/p/c9bb6f89cfcc

https://blog.csdn.net/jinping_shi/article/details/52433975

《深度学习之pytorch物体检测实战》

进击的路飞桑

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
范数与正则化

范数比较1、2两个数字的大小，其结果显而易见。但我们如何比较（3,6）、（4,5）两个向量的大小呢？此时就用到了范数。范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：L1范数当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。L2范数当p=2时，是L2范数，表示某个向量中所有元素平方和再开根...
复制链接

扫一扫