1.9 归一化输入-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

最新推荐文章于 2024-02-17 02:41:45 发布

Zhao-Jichao

最新推荐文章于 2024-02-17 02:41:45 发布

阅读量3.8k

点赞数 5

分类专栏：深度学习DL 文章标签：神经网络机器学习深度学习人工智能 python

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105395623

版权

深度学习DL 专栏收录该内容

206 篇文章 2796 订阅

订阅专栏

←上一篇	↓↑	下一篇→
1.8 其他正则化方法	回到目录	1.10 梯度消失与梯度爆炸

归一化输入

训练神经网络，其中一个加速训练的方法就是归一化输入。假设一个训练集有两个特征，输入特征为2维，归一化需要两个步骤：

零均值
归一化方差；

我们希望无论是训练集和测试集都是通过相同的 $\mu$ 和 $\sigma^2$ 定义的数据转换，这两个是由训练集得出来的。

在这里插入图片描述

第一步是零均值化， $\mu=\frac1m\sum_{i=1}^mx^{(i)}$ ，它是一个向量， $x$ 等于每个训练数据 $x$ 减去 $\mu$ ，意思是移动训练集，直到它完成零均值化。

在这里插入图片描述

第二步是归一化方差，注意特征 $x_1$ 的方差比特征 $x_2$ 的方差要大得多，我们要做的是给 $\sigma$ 赋值， $\sigma^2=\frac1m\sum_{i=1}^m(x^{(i)})^2$ ，这是节点 $y$ 的平方， $\sigma^2$ 是一个向量，它的每个特征都有方差，注意，我们已经完成零值均化， $x^{(i)})^2$ 元素 $y^2$ 就是方差，我们把所有数据除以向量 $\sigma^2$ ，最后变成上图形式。

$x_1$ 和 $x_2$ 的方差都等于1。提示一下，如果你用它来调整训练数据，那么用相同的 $\mu$ 和 $\sigma^2$ 来归一化测试集。尤其是，你不希望训练集和测试集的归一化有所不同，不论 $\mu$ 的值是什么，也不论 $\sigma^2$ 的值是什么，这两个公式中都会用到它们。所以你要用同样的方法调整测试集，而不是在训练集和测试集上分别预估 $\mu$ 和 $\sigma^2$ 。因为我们希望不论是训练数据还是测试数据，都是通过相同 $μ$ 和 $\sigma^2$ 定义的相同数据转换，其中 $\mu$ 和 $\sigma^2$ 是由训练集数据计算得来的。

我们为什么要这么做呢？为什么我们想要归一化输入特征，回想一下右上角所定义的代价函数。

$J(w,b)=\frac1m\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})$

如果你使用非归一化的输入特征，代价函数会像这样：

在这里插入图片描述

这是一个非常细长狭窄的代价函数，你要找的最小值应该在这里。但如果特征值在不同范围，假如 $x_1$ 取值范围从1到1000，特征 $x_2$ 的取值范围从0到1，结果是参数 $x_1$ 和 $x_2$ 值的范围或比率将会非常不同，这些数据轴应该是 $w_1$ 和 $w_2$ ，但直观理解，我标记为 $w$ 和 $b$ ，代价函数就有点像狭长的碗一样，如果你能画出该函数的部分轮廓，它会是这样一个狭长的函数。

然而如果你归一化特征，代价函数平均起来看更对称，如果你在上图这样的代价函数上运行梯度下降法，你必须使用一个非常小的学习率。因为如果是在这个位置，梯度下降法可能需要多次迭代过程，直到最后找到最小值。但如果函数是一个更圆的球形轮廓，那么不论从哪个位置开始，梯度下降法都能够更直接地找到最小值，你可以在梯度下降法中使用较大步长，而不需要像在左图中那样反复执行。

当然，实际上 $w$ 是一个高维向量，因此用二维绘制 $w$ 并不能正确地传达并直观理解，但总地直观理解是代价函数会更圆一些，而且更容易优化，前提是特征都在相似范围内，而不是从1到1000，0到1的范围，而是在-1到1范围内或相似偏差，这使得代价函数 $J$ 优化起来更简单快速。

在这里插入图片描述

实际上如果假设特征 $x_1$ 范围在0-1之间， $x_2$ 的范围在-1到1之间， $x_3$ 范围在1-2之间，它们是相似范围，所以会表现得很好。

当它们在非常不同的取值范围内，如其中一个从1到1000，另一个从0到1，这对优化算法非常不利。但是仅将它们设置为均化零值，假设方差为1，就像上一张幻灯片里设定的那样，确保所有特征都在相似范围内，通常可以帮助学习算法运行得更快。

所以如果输入特征处于不同范围内，可能有些特征值从0到1，有些从1到1000，那么归一化特征值就非常重要了。如果特征值处于相似范围内，那么归一化就不是很重要了。执行这类归一化并不会产生什么危害，我通常会做归一化处理，虽然我不确定它能否提高训练或算法速度。

这就是归一化特征输入，下节课我们将继续讨论提升神经网络训练速度的方法。

课程PPT

在这里插入图片描述

←上一篇	↓↑	下一篇→
1.8 其他正则化方法	回到目录	1.10 梯度消失与梯度爆炸

Zhao-Jichao

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
1.9 归一化输入-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

归一化输入训练神经网络，其中一个加速训练的方法就是归一化输入。假设一个训练集有两个特征，输入特征为2维，归一化需要两个步骤：零均值归一化方差；我们希望无论是训练集和测试集都是通过相同的 μ\muμ 和 σ2\sigma^2σ2 定义的数据转换，这两个是由训练集得出来的。第一步是零均值化， μ=1m∑i=1mx(i)\mu=\frac1m\sum_{i=1}^mx^{(i)}...
复制链接

扫一扫