梯度下降、反向传播、学习率 α 、优化器

Pengsen Ma

已于 2023-01-05 14:01:35 修改

阅读量2.3k

点赞数 7

分类专栏：机器学习基础文章标签：深度学习人工智能

于 2022-05-05 09:55:50 首次发布

本文链接：https://blog.csdn.net/weixin_43135178/article/details/124582473

版权

机器学习基础专栏收录该内容

195 篇文章

订阅专栏

本文详细介绍了深度学习中的反向传播原理，它是计算损失函数关于参数梯度的方法。梯度下降利用这些梯度更新权重，以最小化损失函数。学习率在梯度下降中扮演关键角色，控制权重更新的速度。优化器，如梯度下降，是寻找损失函数最小值的策略，包括多种不同的优化算法。在PyTorch实践中，前向传播、损失计算、梯度清零、反向传播和权重更新构成了神经网络训练的基本步骤。文章还探讨了为何在反向传播前要手动清零梯度的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

反向传播学习连接：前向传播、反向传播——通俗易懂_马鹏森的博客-CSDN博客_前向传播反向传播

梯度下降与反向传播

1、反向传播 是 求解损失函数关于各个参数的梯度的一种方法。（求梯度【偏导数】）

2、梯度下降 是 根据反向传播计算得到的梯度（偏导）来更新各个权重W，使损失函数极小值的一种方法。（使权重W更好）

学习率 α 与梯度下降的关系？

学习率 α 是梯度下降中权重更新公式的一部分

梯度下降中的权重更新公式：

利用，权重更新公式更新权重W，其中 α 是学习率

备注：我认为：学习率 == 步长

优化器与梯度下降的关系？

梯度下降属于优化器的一种，优化器就是使使损失函数极小值的一种方法，它里面也包含学习率

在机器学习、深度学习中使用的优化算法除了常见的梯度下降，还有 Adam，Adagrad，RMSProp 等几种优化器

实战代码：

理解了上面的内容后，我们便知道了整个神经网络的实现过程分为5步：（Pytorch实现神经网络_马鹏森的博客-CSDN博客）

前向传播得到预测值 --> 求预测值与真实值的损失 --> 优化器梯度清零（可选操作） --> 利用反向传播求所有参数的梯度（导数） --> 优化器更新权重W

# Gradient Descent
for epoch in range(50):
   # Forward pass: Compute predicted y by passing x to the model
   y_pred = model(x)
 
   # Compute and print loss
   loss = criterion(y_pred, y)
   print('epoch: ', epoch,' loss: ', loss.item())
 
   # Zero gradients, perform a backward pass, and update the weights.
   optimizer.zero_grad()
 
   # perform a backward pass (backpropagation)
   loss.backward()
 
   # Update the parameters
   optimizer.step()

备注：这里的 optimizer.zero_grad() 是梯度清零操作，需要的内存较大，如果使用“梯度累加”操作的话：在内存大小不够的情况下叠加多个batch的grad作为一个大batch进行迭代，因为这个和大batch_size得到的梯度是等价的，但是效果自然是差一些，这个可以说是“增大batch-size减少内存”的一个小trick吧

PyTorch中在反向传播前为什么要手动将梯度清零？ - 知乎

损失函数与优化器理解+【PyTorch】在反向传播前为什么要手动将梯度清零？optimizer.zero_grad()_马鹏森的博客-CSDN博客