线材下料优化python算法_机器学习中的优化算法(3)-AdaGrad, Adadelta(附Python示例)

最新推荐文章于 2022-09-06 10:34:18 发布

weixin_39844590

最新推荐文章于 2022-09-06 10:34:18 发布

阅读量432

点赞数

文章标签：线材下料优化python算法线材优化python算法

AdaGrad^[1]是2011年发表的一种亚梯度方法,在很多大规模问题上验证了有效性.

它的迭代为:

关于数学符号,请看

郝曌骏：机器学习中的优化算法(1)zhuanlan.zhihu.com

AdaGrad有类似于learning rate annealing的效果,不过学习率衰减不是迭代次数的函数,而是梯度平方和的平方根的函数.
预期达到的效果就是:- 之前梯度相对比较大的维度上更新幅度相对小.不同的维度的更新幅度的差距会减小- 随着梯度平方和的增加,更新幅度会越来越小,接近0

AdaGrad超参对比1

AdaGrad超参对比2

缺点:

Adadelta^[2]是2012年作者在Google实习时提出的对AdaGrad的改进.

每次迭代为

其中

不仅为了稳定数值计算,同时也是为了初始化

Adadelta对于AdaGrad的改进主要是

Adadelta超参对比1

但是,实验中发现不需要人工设定的学习率,但是对

很敏感,因为第一步的步长是

作为对比,以下是带Momentum的GD和RMSProp的效果

画图的代码

import

AdaGrad和Adadelta在pytorch中的实现为

import torch
torch.optim.Adagrad() # 学习率默认为1
torch.optim.Adadelt() # 学习率默认为0.01

关注