归一化、标准化和正则化

最新推荐文章于 2024-09-06 18:51:04 发布

Anne033

最新推荐文章于 2024-09-06 18:51:04 发布

阅读量2k

点赞数

分类专栏： Basic Math 文章标签：深度学习机器学习正则化

原文链接：https://zhuanlan.zhihu.com/p/29957294

版权

Basic Math 专栏收录该内容

32 篇文章 22 订阅

订阅专栏

归一化 Normalization

归一化一般是将数据映射到指定的范围，用于去除不同维度数据的量纲以及量纲单位。
常见的映射范围有 [0, 1] 和 [-1, 1] ，最常见的归一化方法就是 Min-Max 归一化：
在这里插入图片描述
举个例子，我们判断一个人的身体状况是否健康，那么我们会采集人体的很多指标，比如说：身高、体重、红细胞数量、白细胞数量等。
一个人身高 180cm，体重 70kg，白细胞计数 [公式] ，etc.
衡量两个人的状况时，白细胞计数就会起到主导作用从而遮盖住其他的特征，归一化后就不会有这样的问题。

###标准化 Normalization

归一化和标准化的英文翻译是一致的，但是根据其用途（或公式）的不同去理解（或翻译）

下面我们将探讨最常见的标准化方法： Z-Score 标准化。
在这里插入图片描述

机器学习的目标无非就是不断优化损失函数，使其值最小。在上图中， [公式] 就是我们要优化的目标函数

我们不难看出，标准化后可以更加容易地得出最优参数 [公式] 和 [公式] 以及计算出 [公式] 的最小值，从而达到加速收敛的效果。 [公式]

注：上图来源于 Andrew Ng 的课程讲义

正则化 Regularization

正则化主要用于避免过拟合的产生和减少网络误差。
正则化是指为解决适定性问题或过拟合而加入额外信息的过程，常用的额外项一般有两种，一般英文称作 $l_1-norm$ 和 $l_2-norm$ ，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。
正则化一般具有如下形式：
在这里插入图片描述
其中，第 1 项是经验风险，第 2 项是正则项， [公式] 为调整两者之间关系的系数。
第 1 项的经验风险较小的模型可能较复杂（有多个非零参数），这时第 2 项的模型复杂度会较大。
下面是Lasso回归的损失函数，式中加号后面一项 $\alpha∣∣w∣∣_1$ 即为L1正则化项。在这里插入图片描述
Lasso的优化目标为：

下面是Ridge回归的损失函数，式中加号后面一项 $\alpha∣∣w∣∣_2^2$ 即为L2正则化项。

Ridge Regression的优化目标为：

一般回归分析中 $w$ 表示特征的系数，从上式可以看到正则化项是对系数做了处理（限制）。L1正则化和L2正则化的说明如下：
L1正则化是指权值向量 $w$ 中各个元素的绝对值之和，通常表示为 $w∣∣_1$
L2正则化是指权值向量 $w$ 中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为 $w∣∣_2^2$
一般都会在正则化项之前添加一个系数，Python的机器学习包sklearn中用 $\alpha$ 表示，一些文章也用 $\lambda$ 表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用？
L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合
————————————————
原文链接：https://zhuanlan.zhihu.com/p/29957294
https://blog.csdn.net/jinping_shi/article/details/52433975