深度学习记录

j_e_f_fabc

于 2024-07-22 00:51:08 发布

阅读量368

点赞数 7

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/j_e_f_fabc/article/details/140597038

版权

定义：

梯度下降是一种通过迭代地调整模型参数来最小化损失函数的优化算法。在每一次迭代中，梯度下降计算目标函数（损失函数）对参数的梯度，并沿着梯度的反方向更新参数，以此逐渐逼近损失函数的最小值。

核心原理：

变体：

随机梯度下降（SGD）：在每次迭代中，仅使用训练集中的一个样本来计算梯度，然后更新参数。这种方法具有随机性，有助于跳出局部最小值，但收敛可能不稳定。
批量梯度下降（BGD）：在每次迭代中使用整个训练集来计算梯度，以获得更准确的梯度估计。这种方法收敛稳定，但计算成本较高。
小批量梯度下降（Mini-Batch Gradient Descent）：结合了SGD和BGD的优点，在每次迭代中使用一个大小适中的小批量样本来计算梯度。这种方法通常用于深度学习中的模型训练。

定义：

梯度消失是神经网络训练中常见的一个问题，特别是在深层神经网络中。它指的是在网络的反向传播过程中，用于更新网络权重的梯度变得非常小，以至于几乎不对权重产生任何显著的更新。

原因：

链式法则的乘积效应：在深层网络中，通过链式法则计算梯度时，梯度会通过每一层逐层传播。如果每层的梯度都小于1（例如，激活函数的导数是0到1之间的值），多个小于1的数相乘会导致梯度逐渐变得非常小。
不恰当的激活函数：某些激活函数（如Sigmoid和Tanh）在输入较大或较小的时候，导数接近于0，因此在深层网络中使用这些激活函数容易导致梯度消失。
权重初始化：不适当的权重初始化也可能导致梯度消失，特别是当初始化的权重太小时。

影响：