关于Adam优化算法

最新推荐文章于 2024-07-10 16:47:58 发布

羊藤枝

最新推荐文章于 2024-07-10 16:47:58 发布

阅读量2.8k

点赞数 2

分类专栏：深度学习机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_30614451/article/details/93753322

版权

本文介绍了深度学习中常用的优化算法，特别是Adam算法。详细阐述了Adam算法的思路，包括一阶矩和二阶矩估计、指数加权平均、参数更新规则以及初始化偏差修正，解释了Adam如何有效地进行参数优化。

摘要由CSDN通过智能技术生成

1.基础知识

矩估计:
一般有：原点矩和中心矩。
随机变量X的n阶原点矩 $a_{n}$ 定义为 $a_{n}=E\left(X^{n}\right)$
根据定义，我们可知：
　　　　一阶原点矩为 $E(\mathrm{x})$ 。
　　　　二阶原点矩为 $E\left(\mathrm{x}^{2}\right)$ 。
因为样本与总体的原点矩是近似的，所以可以通过让它们相等来用样本矩估计总体矩。

设总体分布为 $f\left(x ; \theta_{1}, \cdots, \theta_{k}\right)$ ，则它的矩（原点矩和中心矩都可以，此处以原点矩为例）
对连续型随机变量：
$E(\mathrm{x}^{n})=\int_{-\infty}^{\infty} x^{n} f\left(x ; \theta_{1}, \cdots, \theta_{k}\right) d_{x}$
对离散型随机变量：
$E(\mathrm{x}^{n})=\sum_{i=1}^{n} x_{i} f\left(x_{i} ; \theta_{1}, \cdots, \theta_{k}\right)$

一阶梯度法与二阶梯度法:
对一个函数 $f(x)\|_{2}^{2}$ ，要求解它的最小或最大值，一般直接求导很难求解，一般可以通过迭代的方式计算，那么迭代的增量 $\Delta X$ 如何设置，这里将目标函数在x附近进行泰勒展开：

$\|f(x+\Delta x)\|_{2}^{2} \approx\|f(x)\|_{2}^{2}+J(x) \Delta x+\frac{1}{2} \Delta x^{T} H \Delta x$

这里J是目标函数关于x的导数(雅克比矩阵)，而H则是二阶导数(海塞[hessian]矩阵)。我们可以选择保留泰勒展开的一阶二阶项，对应的求解方法则为一阶梯度或二阶梯度法。
1）如果保留一阶梯度，那么增量的解就为：
$\Delta x=-J(x)^{T}$
通常 $\Delta x$ 前面会加一个步长λ：
$\Delta x=-\lambda J^{T}(x)$
2)如果保留两阶梯度，那么增量的解就为：
$\Delta x=-H^{-1} J^{T}$

雅各比矩阵：
设y=f(x)，x和y都是一个向量，则对应的雅可比矩阵为
$J=\left[\begin{array}{llll}{\frac{d y_{1}}{d x_{1}}} & {\frac{d y_{1}}{d x_{2}}} & {\dots} & {\frac{d y_{1}}{d x_{n}}} \\ {\frac{d y_{2}}{d x_{1}}} & {\frac{d y_{2}}{d x_{2}}} & {\cdots} & {\frac{d y_{2}}{d x_{n}}} \\ {\cdots} & {\cdots} & {\cdots} & {\cdots} \\ {\frac{d y_{m}}{d x_{1}}} & {\frac{d y_{m}}{d x_{2}}} & {\cdots} & {\frac{d y_{m}}{d x_{n}}}\end{array}\right]$

最低0.47元/天解锁文章

羊藤枝

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
关于Adam优化算法

基础知识矩估计:一般有：原点矩和中心矩。随机变量X的n阶原点矩ana_{n}an定义为an=E(Xn)a_{n}=E\left(X^{n}\right)an=E(Xn)根据定义，我们可知：　　　　一阶原点矩为 E(x)E(\mathrm{x})E(x)。　　　　二阶原点矩为 E(x2)E\left(\mathrm{x}^{2}\right)E(x2)。因为样本与总体的原点矩是近似...
复制链接

扫一扫

专栏目录