【机器学习】正则化

最新推荐文章于 2022-04-13 18:29:15 发布

CC‘s World

最新推荐文章于 2022-04-13 18:29:15 发布

阅读量295

点赞数

分类专栏：机器学习 Pytorch 文章标签：正则化机器学习 BN Dropout 神经网络

本文链接：https://blog.csdn.net/qq_36643449/article/details/105348243

版权

机器学习同时被 2 个专栏收录

27 篇文章 12 订阅

订阅专栏

Pytorch

13 篇文章 1 订阅

订阅专栏

既在训练上表现良好又在测试集上表现良好的能力称为泛化，欠拟合是指深度学习模型在训练上表现差，过拟合是指深度学习模型在训练上表现良好、在测试上表现差。
正则化的思想就是在目标函数中引入额外的信息来惩罚过大的权重参数，通常只对权重做正则惩罚，而不对偏置做正则惩罚。正则化项是损失函数的附加标准，以确保不会过度拟合。
在这里插入图片描述
这样做的目的是：权重不应该过大，如果权重太大，特征上小小的变化就会引起预测较大的改变；也不希望给某个特征过大的权重，因为如果它有太大的权重，就会有很大的影响，其他的特征就起不到应有的作用；我们也希望无用的特征其权重为0.

正则化项有多种计算方式：
L1正则：绝对值求和
L2正则：平方和
区别在于：平方和权重给予较大值更多的惩罚

p-范数：p次方和再开p次方根。
较小的p，p<2时会产生稀疏的向量，较大的p突出大的权重。1-范数具有特征选择的功能。

在这里插入图片描述

总结：

L1很受欢迎，因为它往往导致稀疏解决方案(即大量零权重)，但是他不可导，因此仅适用于梯度下降求解法。
L2很受欢迎，因为对于某些损失函数，可以直接求解(不需要梯度下降，但通常仍然需要迭代求解)。
Lp不太受欢迎，因为对权重缩减不够。

【通用名称】

最小二乘：平方损失
岭回归：L2正则化的平方损失
Lasso回归：L1正则化的平方损失
弹性回归：L1和L2正则化平方损失的组合
逻辑斯蒂回归：logistic损失

【Batch Normalization】
在机器学习中，如果训练数据和测试数据都符合一定的状态分布，那么训练的模型能够较好地预测测试集上的数据；反之，训练的模型在测试集上的表现就会变差。在训练神经网络模型时，可以事先将特征去相关并使得它们满足一个比较好的分布，这样模型的第一层网络一般都会有一个比较好的输入特征，但是随着模型的层数加深，网络的非线性变换使得每一层的结果变得相关了，并且不再满足标准正态分布，更糟糕的事，可能这些隐藏层的特征分布已经发生了偏移。
为了解决这个问题，研究人员提出在层与层之间加入Batch Normalization层。训练时，BN层利用隐藏层输出结果的均值和方差来标准化每一层特征的分布，并且维护所有mini-batch数据的均值与方差，最后把样本的均值与方差的无偏估计量用于测试时使用。
鉴于在某些情况下非标准化分布的层的特征可能是最优的，标准化每一层的输出特征反而会使得网络的表达能力变得不好，BN层加上了两个可学习的缩放参数和偏移参数以便模型自适应地去调整层的特征分布。

Batch Normalization是一种非常简便而又实用的加速收敛速度技术，其作用如下：