正则化技术深入总结

最新推荐文章于 2024-07-04 18:00:36 发布

沐雨金鳞

最新推荐文章于 2024-07-04 18:00:36 发布

阅读量1k

点赞数

分类专栏： Machine learning 文章标签：正则化技术深入总结

本文链接：https://blog.csdn.net/qq_38262266/article/details/99685055

版权

Machine learning 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

本文总结之王海安的机器学习课程

一、正则化作用及其常见术语

正则化技术的本质作用是防止过拟合，提高模型的泛化能力。

黄大哥说：听到正则化你首先要想到并且能够讲到下面三个点：

1、正则化等价于结构风险最小化，正则化是通过在经验风险项后加上表示模型复杂度的正则化项或惩罚项，达到选择经验风险和模型复杂度都较小的模型的目的。

经验风险：训练误差，经验风险最小化即为训练误差最小。

结构风险：经验风险 + 置信风险，可以简单认为是经验风险后面多加了一项表示模型复杂度的函数项，从而可以同时控制模型训练误差和测试误差，结构风险最小化即为在保证模型分类精度的同时，降低模型复杂度，提高泛化能力。

个人理解：经验风险就是说我们的模型对于训练数据训练的好坏，如果我们的模型对于训练数据达到了一个最好的情况，那么就对应着经验风险的最小化，也就是偏差最小化。但是一般而言，我们使得对训练数据达到了最好，那么很可能就造成了过拟合，就会使得模型对于测试数据的精确度并不高，也就是模型的泛化能力比较差，所以我们并不能把经验风险最小化作为衡量模型优良的方面，而是综合模型的方差，也就是泛化能力，综合偏差和方差，我们得出模型的泛化误差，当泛化误差最小化时，那么才是我们所需要的，也就是精度好，泛化能力也强。

2、正则化等价于带约束的目标函数中的约束项

个人理解：同结构风险=经验风险+置信风险一样，正则化就是在误差的后面加上了一个约束项，采用拉格朗日算子法将有条件的约束问题转化为无约束的优化问题。

3、从贝叶斯角度考虑，正则项等价于引入参数的模型先验概率，可以简单理解为对最大似然估计引入先验概率，从而转化为最大后验估计，其中的先验概率即对于正则项。

二、机器学习正则化技术基本概念

下面的内容因为都是公式，直接粘贴了黄大哥的课件内容：

个人理解：我们通过上面学习可以知道，当我们采用不同的范数时，我们得出的最后的模型的结果是不一样的。

三、机器学习正则化技术的深度理解

黄大哥从四个方面深度分析了正则化技术：

1、简单数值假设分析法
2、图形分析法
3、公式推导分析法
4、贝叶斯推断分析法

1、简单数值假设分析法

个人理解：通过上面我们看到，当我们过拟合时，会通过代价函数分配给一些模型参数较大的参数值，从而使得造成模型过拟合的参数变得极小，这样就提高了模型的泛化能力，在我们实际开发中，会针对每一个模型参数分配一个参数，因为每个模型参数对应的值不同，所以模型参数对应的参数的大小值也不同，这样就实现了权重衰减，简化了模型的复杂度。

2、图形分析法

个人理解：不管是哪个正则化，以上面例子来讲，就是不管是15式还是16式，如果式子(代价函数，结构代价最小化)=0有解的话，那么肯定式子的两项会相交于空间中的一点，从而压缩了原始解空间，而由于不加正则项的原始最优解是达到经验风险最小化，所以并不是所谓的泛化误差最优解，所以我们通过正则项就可以将解压缩到泛化误差最优解。

3、公式推导分析法

个人理解：这里我们通过公式理解了为什么正则项能够减小过拟合，针对L2正则化来说，通过公式我们发现每个参数都是经过一个程度的缩减，但是永远不会取0，而针对L1正则化来说，如果参数值大于0，那么会对其进行一定程度缩减，如果参数值小于0，那么会对其进行一定程度的增加，使得所有参数向0的方向靠近，得到近似稀疏解，学习到这里，自我感觉L1正则化比L2正则化更好。