Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03-CSDN博客

本文链接：https://blog.csdn.net/2302_77116414/article/details/141832115

在深度学习中，批量归一化（Batch Normalization，BN）技术是一种重要的优化方法，它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用，以及如何选择合适的损失函数来提高模型的训练效果，同时对均方误差和交叉熵两种常见的损失函数进行比较。

一、批量归一化的原理

在深度学习中，误差表面的崎岖不平会使训练变得困难。批量归一化的想法就是通过改变误差表面的地貌，“把山铲平”，让训练变得更容易。

具体来说，当输入特征在不同维度上的数值范围差距很大时，可能会导致误差表面在不同方向上的斜率差异很大，从而使训练变得困难。为了解决这个问题，可以对特征进行归一化，使不同维度的数值具有相同的数值范围。

例如，可以使用 Z 值归一化（标准化）的方法，对每个维度的数值计算平均值和标准差，然后将该维度的数值减去平均值并除以标准差，得到归一化后的数值。这样可以使归一化后的数值分布在 0 上下，方差为 1，从而制造一个更好的误差表面，使训练更顺利。

二、批量归一化的实现方式

在深度学习中，批量归一化的实现方式如下：

对输入的特征进行归一化，得到归一化后的特征˜x。
将˜x 输入到深度网络中，经过第一层得到 z^1，然后通过激活函数得到 a^1，接着再通过下一层，以此类推。
对中间层的特征 z 进行归一化，具体步骤如下：
- 计算 z^1, z^2, z^3 的平均值 μ 和标准差 σ。
- 根据计算出的 μ 和 σ 进行归一化：。
- 最后，加上 β 和 γ 进行调整：，其中代表逐元素的相乘，β 和 γ 是需要学习的参数。

在实际实现中，批量归一化只对一个批量内的数据进行归一化，以近似整个数据集的特征归一化。同时，在测试时，PyTorch 会对训练时每个批量计算出的 μ 和 σ 进行移动平均，测试时直接用训练时的移动平均来取代 μ 和 σ。

三、批量归一化在神经网络中的应用

批量归一化可以应用于神经网络的各个层，它可以使误差表面变得更加平滑，从而提高训练的稳定性和收敛速度。

通过对特征进行归一化，可以减少不同维度之间的差异，使得网络更容易学习到有用的特征。此外，批量归一化还可以缓解梯度消失和梯度爆炸的问题，使训练更加稳定。

四、如何选择合适的损失函数来提高模型的训练效果

选择合适的损失函数对于提高模型的训练效果至关重要。不同的损失函数适用于不同的问题和模型。

在分类问题中，常用的损失函数有均方误差和交叉熵。均方误差是将输出与标签之间的差异平方后求和，而交叉熵则是根据输出与标签之间的概率分布来计算损失。

交叉熵损失函数通常比均方误差更常用在分类上，因为它能够更好地引导模型的训练。当输出与标签相同时，交叉熵可以最小化交叉熵的值，此时均方误差也是最小的。此外，交叉熵还能够使大的值跟小的值的差距更大，从而更好地优化模型。

五、均方误差和交叉熵两种常见的损失函数的比较

通过一个三类分类的例子，可以比较均方误差和交叉熵在优化中的表现。

假设网络先输出和，通过 softmax 以后，产生和。假设正确答案是，要计算跟和之间的距离 e，e 可以是均方误差或交叉熵。

当很大，很小时，代表会很接近 1，会很接近 0，此时不管 e 取均方误差或交叉熵，损失都是小的；当小，大时，是 0，是 1，这个时候损失会比较大。

在优化过程中，如果选择交叉熵，左上角圆圈所在的点有斜率，可以通过梯度一路往右下的地方 “走”；如果选均方误差，左上角圆圈就卡住了，均方误差在这种损失很大的地方非常平坦，梯度非常小趋近于 0，无法用梯度下降顺利地 “走” 到右下角。因此，在做分类时，选均方误差的时候，如果没有好的优化器，有非常大的可能性会训练不起来。如果用 Adam，虽然图中圆圈的梯度很小，但 Adam 会自动调大学习率，还有机会走到右下角，不过训练的过程比较困难。