正则化

最新推荐文章于 2022-11-04 00:01:36 发布

城之内萨莉娜

最新推荐文章于 2022-11-04 00:01:36 发布

阅读量4.9k

点赞数

分类专栏： machine learning and statistical machine learning

本文链接：https://blog.csdn.net/mrjiale/article/details/81040327

版权

machine learning and statistical machine learning 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

正则化
百度正则化（正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。），通俗可以理解为是 对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。 使用正则化的目的是防止出现过拟合。

LP范数
范数简单可以理解为用来表征向量空间中的距离，而距离的定义很抽象，只要满足非负、自反、三角不等式就可以称之为距离。
L1范数就是向量各元素的绝对值之和，公式为： $ ||x||_1 == \sum_i^n |x_i| $KaTeX parse error: Expected 'EOF', got '#' at position 114: \dots式为：<font color=#̲FF0000> **$ ||x||_2 =\sqrt{ \sum_i^n (x_i)^2 } $ ，L2范数有人把它的回归叫“岭回归 ”，也有人叫它“权值衰减”。
L1和L2范数的区别：

如上图所示，蓝色的圆圈表示问题可能的解范围，橘色的表示正则项可能的解范围。而整个目标函数（原问题+正则项）有解当且仅当两个解范围相切。从上图可以很容易地看出，由于L2范数解范围是圆，所以相切的点有很大可能不在坐标轴上，而由于L1范数是菱形（顶点是凸出来的），其相切的点更可能在坐标轴上，而坐标轴上的点有一个特点，其只有一个坐标分量不为零，其他坐标分量为零，即是稀疏的。所以有如下结论，L1范数可以导致稀疏解，L2范数导致稠密解。
从贝叶斯先验的角度看，当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项，而加入正则项相当于加入了一种先验。
L1范数相当于加入了一个Laplacean先验，可以保证模型的稀疏性，也就是某些参数等于0；
L2范数相当于加入了一个Gaussian先验，可以保证模型的稳定性，也就是参数的值不会太大或太小；
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归。
如下图：

在机器学习中防止过拟合的方法主要有三种：

1. 增加数据集
增加数据集的方法是最直接的，但是有时候数据的收集有一定难度或者拥有的本来就有限
2. 正则化方法
在深度学习中，用的比较多的是L2正则化，其形式是在先的损失函数后面再加多一项：$ \frac{1}{2} \lambda \theta_i^2 $，那么加上 L 2 正则项的损失函数就可以表示为：$ L(\theta)=L(\theta)+ \frac{1}{2} \lambda \theta_i^2 $，其中$ \theta$ 就是网络层的待学习参数， $\lambda$ 控制正则项的大小，较大的取值将较大程度的约束模型复杂度，反之亦然。
3. Dropout
Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率pp丢弃部分神经元，即使得被丢弃的神经元输出为0。正则化是通过修改损失函数来实现的，而dropout是通过修改神经网络本身。在使用dropout时候要注意dropout率的选择(0.5)。