深度学习中的优化器原理总结（经典+前沿）_深度学习优化的原理-CSDN博客

本文介绍了经典和前沿的深度学习中的优化器（优化算法）。文章整体思路、图片、公式均源自李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibili。Optimization部分在网课中是由课程助教讲解的选学课程，难度较大（我在第一次学习的时候甚至连Adam算法都没有理解，就匆匆跳过了课程）。之所以整理出该文章，一方面用于以后自己经常回顾，一方面希望可以帮助向曾经的我一样被直接劝退的朋友们。视频中Adagrad、RMSProp等算法等讲解得过快，我在文中写入了自己对不同算法的理解、思考以及直观上的分析，如果能恰好帮助你理解，并与网课视频相互补充，那我将十分荣幸。

本文分为三个部分，第一个部分介绍梯度下降的思想及实际训练模型常用的批梯度下降法，第二部分介绍了五种经典的算法，第三部分介绍了一些前沿算法。在第二三部分的介绍中，每种算法在介绍时以算法的优势、步骤和直观理解为主，不讨论其理论性质的证明。

无论是DNN还是CNN，都追求模型预测值和真实值间的差异最小化，通常构造损失函数来度量这种差异（如回归问题中的平方损失，分类问题中的交叉熵损失），损失函数是模型参数的函数。因此，我们一定会面临一个最小化问题，目标函数是损失函数，决策变量是模型参数。于是，我们需要优化算法来求解这个最小化问题，梯度下降法或者说它的思想贯穿着深度学习优化算法的始终。

一、梯度下降的思想与批梯度下降法

梯度下降是经典的优化算法，它的思想是：参数在更新时始终朝着目标函数（最小化问题）下降最快的方向移动，而这个方向就是梯度（梯度是上升最快的方向）的反方向，用公式可以表达为

$\theta _{t}=\theta _{t-1}-\eta \triangledown{L(\theta _{t-1})}$

$\small \triangledown{L(\theta _{t-1})}$ 是损失函数 $\small L$ 对第 $\small t-1$ 时刻的参数 $\small \theta _{t-1}$ 的梯度， $\small \eta$ 学习率是一个超参数，需要人为设定，通常设为0.001、0.01等。