深度学习自学笔记八：深度学习的实践（二）

最新推荐文章于 2024-08-18 00:04:40 发布

ironmao

最新推荐文章于 2024-08-18 00:04:40 发布

阅读量96

点赞数

文章标签：深度学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71721954/article/details/133251035

版权

本文介绍了归一化输入的重要性，包括Z-score标准化和Min-Max缩放方法，并讨论了梯度消失和梯度爆炸问题，提供了权重初始化、激活函数选择和正则化等解决策略。还涵盖了梯度的数值逼近方法，如中心差分和前向差分，以及梯度检验的作用和应用场景。

摘要由CSDN通过智能技术生成

一、归一化输入

归一化输入指的是将输入数据进行标准化处理，使其具有零均值和单位方差。这种预处理操作可以有效地改善模型的收敛速度、稳定性和性能。

常见的归一化方法包括：

1. Z-score标准化：也称为标准化或零均值归一化，将数据按照特征维度进行中心化和缩放，使得数据的均值为0，标准差为1。对于样本x，Z-score标准化的计算公式如下：

z = (x - mean) / std

其中，mean表示特征的均值，std表示特征的标准差。

2. Min-Max缩放：将数据线性地映射到指定的范围内，通常是[0, 1]或[-1, 1]。对于样本x，Min-Max缩放的计算公式如下：

x_scaled = (x - min) / (max - min)

其中，min和max分别表示特征的最小值和最大值。

归一化输入的目的是消除不同特征之间的量纲差异，使得它们在相同的尺度上进行比较。这有助于优化算法更好地学习数据的分布和特征之间的关系，避免某些特征对模型的训练产生过大的影响。

需要注意的是，在进行归一化之前，应该将数据分为训练集和测试集，并且只使用训练集的统计量（均值和标准差或最小值和最大值）进行归一化操作。然后，将得到的归一化参数应用于训练集和测试集。这样做可以避免信息泄漏，确保模型在实际应用中对未见过的数据也能取得良好的效果。

二、梯度消失/梯度爆炸

梯度消失和梯度爆炸是在深度神经网络中出现的两个常见问题。

1. 梯度消失（Gradient Vanishing）：在反向传播过程中，梯度值随着网络层数的增加逐渐变小，并最终趋近于零。这意味着在更新网络参数时，底层的权重几乎没有得到有效的更新，导致网络难以学习到深层次的特征表示。梯度消失通常发生在使用Sigmoid或Tanh等饱和激活函数，并且网络较深的情况下。

2. 梯度爆炸（Gradient Explosion）：与梯度消失相反，梯度值在反向传播过程中不断增大，超过了数值范围，导致参数更新过大。这可能导致模型的不稳定性和收敛困难，甚至无法进行有效的训练。梯度爆炸通常发生在网络存在过多的连接、学习率设置过高或误差信号被放大的情况下。

为了解决梯度消失和梯度爆炸问题，可以采取以下方法：

1. 权重初始化：合适的权重初始化可以有助于缓解梯度消失和梯度爆炸。常用的方法包括使用Xavier初始化或He初始化来保持梯度的适当范围。

2. 使用恰当的激活函数：ReLU等非饱和激活函数可以在一定程度上避免梯度消失问题。此外，Leaky ReLU、ELU等改进的激活函数也可以尝试。

3. 批归一化（Batch Normalization）：通过对每个批次的输入数据进行标准化，可以加速训练过程并缓解梯度消失和梯度爆炸问题。

4. 梯度裁剪（Gradient Clipping）：限制梯度的大小，将其截断在一个合理的范围内，以防止梯度爆炸。

5. 减少网络层数：减少网络的深度，使得梯度能够更好地传播，从而减轻梯度消失问题。

6. 使用正则化技术：如L1、L2正则化等，有助于降低过拟合风险，从而提高模型的稳定性。

综上所述，通过合适的权重初始化、激活函数选择、批归一化、梯度裁剪等方法，可以缓解梯度消失和梯度爆炸问题，促进深度神经网络的训练和收敛。

三、梯度的数值逼近

梯度的数值逼近是一种用于估计梯度值的方法，特别是在无法直接计算或求解梯度的情况下。它基于导数的定义来近似计算函数在某一点处的梯度。

常见的梯度数值逼近方法有两种：中心差分和前向差分。

1. 中心差分（Central Difference）：中心差分方法通过使用函数在正负偏离当前点的两个邻近点处的函数值来计算梯度。具体而言，对于函数f(x)，在某一点x处，中心差分的公式如下：

gradient = (f(x + h) - f(x - h)) / (2 * h)

其中，h是一个很小的数值，表示x点周围的偏移量。该方法利用了函数在正负方向上的函数值差异，因此可以更准确地估计梯度。

2. 前向差分（Forward Difference）：前向差分方法仅使用函数在正偏离当前点的邻近点处的函数值来计算梯度。具体而言，对于函数f(x)，在某一点x处，前向差分的公式如下：

gradient = (f(x + h) - f(x)) / h

在这种方法中，我们仅考虑了函数在正方向上的函数值变化，因此可能会引入一定的误差。

这些数值逼近方法可以在无法直接计算梯度或没有解析表达式的情况下使用。它们虽然简单易实现，但是需要选择合适的步长h来平衡精度和计算效率。较小的步长可以提高逼近的准确性，但也会增加计算成本。

需要注意的是，数值逼近方法只是估计梯度的一种方式，并不像解析求导那样精确。因此，在可能的情况下，最好使用解析求导来计算梯度，以获得更精确的结果。

四、梯度检验

梯度检验是一种用于验证数值计算的梯度是否正确的方法。它通过比较数值逼近的梯度和解析求导得到的梯度之间的差异来判断梯度的计算是否准确。

梯度检验的基本思想是利用有限差分近似计算梯度，然后将其与解析求导得到的梯度进行比较。具体步骤如下：

1. 对于待计算梯度的函数f(x)，选择一个待求导的自变量x，并确定一个小的扰动值epsilon。

2. 使用数值逼近方法（如中心差分或前向差分）计算该变量在当前点x处的数值梯度。

3. 使用解析求导方法计算该变量在当前点x处的解析梯度。

4. 比较数值梯度和解析梯度之间的差异。可以使用差异的绝对值、相对值或其他合适的指标进行比较。

如果数值梯度与解析梯度之间的差异非常小（通常设置一个阈值），则可以认为梯度计算是正确的；否则，可能存在梯度计算错误的问题。

梯度检验的目的是确保实现中的梯度计算的准确性，并帮助排除梯度计算错误导致的问题。它对于验证复杂模型中的梯度计算的正确性尤其有用，可以帮助提高模型的稳定性和可靠性。

需要注意的是，梯度检验通常在调试和开发阶段使用，并且由于它涉及到额外的数值计算，可能会带来一定的计算开销。因此，在实际应用中，梯度检验可能不是每次训练都会执行，而是在需要检查梯度计算正确性时进行。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ironmao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。