深度学习相关概念：批量归一化

最新推荐文章于 2024-06-26 11:35:37 发布

AiCharm

最新推荐文章于 2024-06-26 11:35:37 发布

阅读量3.7k

点赞数 1

分类专栏：深度学习相关概念详解文章标签：深度学习机器学习人工智能神经网络算法

本文链接：https://blog.csdn.net/muye_IT/article/details/123597111

版权

深度学习相关概念详解专栏收录该内容

10 篇文章 21 订阅

订阅专栏

本文详细阐述了批量归一化在深度学习中的关键作用，包括解决训练过程中的分布变化问题、与权重初始化的关系、缓解梯度消失、算法原理与改进，以及在单样本测试中的处理策略。通过学习参数调整，使网络更适应不同分布的数据，提升模型性能。

摘要由CSDN通过智能技术生成

1.为什么需要批量归一化

在训练过程中，每层输入的分布不断的变化，这使得下一层需要不断的去适应新的数据分布，这就会让训练变得非常复杂而且缓慢。为了解决这个问题，就需要设置更小的学习率、更严格的参数初始化。通过使用批量归一化(Batch Normalization, BN)，在模型的训练过程中利用小批量的均值和方差调整神经网络中间的输出，从而使得各层之间的输出都符合均值、方差相同高斯分布，这样的话会使得数据更加稳定，无论隐藏层的参数如何变化，可以确定的是前一层网络输出数据的均值、方差是已知的、固定的，这样就解决了数据分布不断改变带来的训练缓慢、小学习率等问题。

2.批量归一化

2.1批量归一化和权重初始化

批量归一化是直接对神经元的输出进行批归一化，作用对象是每一层网络的输出。权重初始化是调整权值分布使得输出与输入具有相同的分布，作用对象是每一层网络的权重。
在这里插入图片描述

2.2 批量归一化与梯度消失

批量归一化经常插入到全连接层后，非线性激活前。这样可以优化全连接层的输出，避免其梯度消失。
在这里插入图片描述

2.3批量归一化算法

小批量梯度下降算法回顾:每次迭代时会读入一(批数据，比如32个样本；经过当前神经元后会有32个输出值.)
批归一化操作:对这32个输出进行减均值除方差操作;可保证当前神经元的输出值的分布符合0均值1方差。
输入: $\mathcal{B}=\left\{x_{1}, \cdots, x_{m}\right\}$ ;

学习参数: $\gamma, \beta$

输出: $\left\{y_{1}, \cdots, y_{m}\right\}$

计算小批量均值: $\mu_{\mathcal{B}} \leftarrow \frac{1}{\mathrm{~m}} \sum_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{x}_{\mathrm{i}}$
计算小批量方差: $\sigma_{\mathcal{B}}^{2} \leftarrow \frac{1}{\mathrm{~m}} \sum_{\mathrm{i}=1}^{\mathrm{m}}\left(\mathrm{x}_{\mathrm{i}}-\mu_{\mathcal{B}}\right)^{2}$
归一化（减均值除方差）: $\quad \hat{x}_{i} \leftarrow \frac{\mathrm{x}_{\mathrm{i}}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}$
平移缩放(批量归一化优化): $\pmb{\mathrm{y}_{\mathrm{i}} \leftarrow \gamma \hat{x}_{i}+\beta}$

2.4批量归一化算法改进

计算小批量均值: $\mu_{\mathcal{B}} \leftarrow \frac{1}{\mathrm{~m}} \sum_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{x}_{\mathrm{i}}$
计算小批量方差: $\sigma_{\mathcal{B}}^{2} \leftarrow \frac{1}{\mathrm{~m}} \sum_{\mathrm{i}=1}^{\mathrm{m}}\left(\mathrm{x}_{\mathrm{i}}-\mu_{\mathcal{B}}\right)^{2}$
归一化（减均值除方差）: $\quad \hat{x}_{i} \leftarrow \frac{\mathrm{x}_{\mathrm{i}}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}$

增加：

平移缩放(批量归一化优化): $\pmb{\mathrm{y}_{\mathrm{i}} \leftarrow \gamma \hat{x}_{i}+\beta}$

批量归一化其实就是前三步，最后加了一步，第四补平移缩放，是为了把数据按照一个新的均值、一个新的方差进行调整。

这就是批量归一化的一个改进，为什么要这么改进呢？它前三步输出的这个值还是不好呢？实际上我们是很难确定0均值，1方差一定是对的，0均值，1方差就一定对分类有帮助吗？未必！所以我们更希望算法对分类的贡献来自行决定（让算法自己去学习），到底应该把数据的均值和方差设为多少会对分类效果会更好一些。所以在第四步引入了两个可学习参数， $\pmb{ \gamma}$ 是我希望这个数据方差映射到了新的方差上去， $\pmb{ \beta}$ 是我希望这个数据映射到新的均值上去，这样 $\mathrm{y}_{\mathrm{i}}$ 输出的神经网络自己选择的一个均值和方差，这就是批量归一化最重要的一个步，通过这个改进，就可以让网络变得更加好。

$\pmb{ \gamma}$ 、 $\pmb{ \beta}$ 这不是超参数， $\pmb{ \gamma}$ 、 $\pmb{ \beta}$ 是神经网络需要学习的，让神经网络自己去确定什么样的均值和方差合适这个分类任务。所以批量归一化做的时候先把数据归一化到0均值1方差，然后再以期望的方差和期望的均值去映射，这就是批量归一化的整个的操作流程。

2.5单样本测试

单张样本测试时，均值和方差怎么设置？

训练的时候是有批的，测试的时候怎么测试的时候我给你一个样本你计算出来的时候只有 $\pmb{x_{1}}$ ，要想得到一个样本的预测值，就必须得到 $\pmb{\mathrm{y}_{\mathrm{1}} \leftarrow \gamma \hat{x}_{1}+\beta}$ ，但在第三步中 $\quad \hat{x}_{1} \leftarrow \frac{\mathrm{x}_{\mathrm{1}}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}$ ， $\pmb{ \gamma}$ 、 $\pmb{ \beta}$ 是学好的参数，但是均值和方差怎么办？

这里告诉大家一个结论：

$\pmb{x_{1}}$ 在预测的时候是没法算的，只能在累加学习的时候，把每一批的均值和方差加和求平均，得出来的值就作为预测的时候的均值和方差。所以就可以得到 $\pmb{\mu_{\mathcal{B}}}$ 、 $\pmb{\sigma_{\mathcal{B}}}$ ，这样就可以计算 $\pmb{x_{1}}$ ，最终通过 $\pmb{\mathrm{y}_{\mathrm{1}} \leftarrow \gamma \hat{x}_{1}+\beta}$ 得到预测值。