adam 神经网络

最新推荐文章于 2023-08-17 15:03:16 发布

GodGump

最新推荐文章于 2023-08-17 15:03:16 发布

阅读量949

点赞数 1

分类专栏：机器学习文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/GodGump/article/details/124989351

版权

机器学习专栏收录该内容

56 篇文章 0 订阅

订阅专栏

感谢阅读

adam原理以及相对优势

adam原理以及相对优势

原理

通俗解释

Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，计算出更新步长。

代码版理解

初始：学习率 lr
初始：平滑常数（或者叫做衰减速率），分别用于平滑m和v
初始：可学习参数
初始：
while 没有停止训练 do
训练次数更新：
计算梯度：（所有的可学习参数都有自己的梯度，因此表示的是全部梯度的集合）
累计梯度：（每个导数对应一个m，因此m也是个集合）
累计梯度的平方：（每个导数对应一个v，因此v也是个集合）
偏差纠正m：
偏差纠正v：
更新参数：
end while

相对优势

Momentum 使用指数加权平均计算当前的梯度值、AdaGrad、RMSProp 使用自适应的学习率，Adam 结合了 Momentum、RMSProp 的优点，使用：移动加权平均的梯度和移动加权平均的学习率。使得能够自适应学习率的同时，也能够使用 Momentum 的优点。

代碼案列

def test04():
    # 1 初始化权重参数
    w = torch.tensor([1.0], requires_grad=True)
    y = ((w ** 2) / 2.0).sum()

    # 2 实例化优化方法：Adam算法，其中betas是指数加权的系数
    optimizer = torch.optim.Adam([w], lr=0.01,betas=[0.9,0.99])

    # 3 第1次更新 计算梯度，并对参数进行更新
    optimizer.zero_grad()
    y.backward()
    optimizer.step()

    print('第1次: 梯度w.grad: %f, 更新后的权重:%f' % (w.grad.numpy(), w.detach().numpy()))
    # 4 第2次更新 计算梯度，并对参数进行更新
    # 使用更新后的参数机选输出结果
    y = ((w ** 2) / 2.0).sum()
    optimizer.zero_grad()
    y.backward()
    optimizer.step()
    print('第2次: 梯度w.grad: %f, 更新后的权重:%f' % (w.grad.numpy(), w.detach().numpy()))

if __name__ == "__main__":
    test04()

GodGump

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
adam 神经网络

感谢阅读adam原理以及相对优势原理通俗解释代码版理解相对优势代碼案列adam原理以及相对优势原理通俗解释Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，计算出更新步长。代码版理解初始：学习率 lr初始：平滑常数（或者叫做衰减速率），分别用于平滑m和v初始：可学习参数初始：while
复制链接

扫一扫