动手学深度学习：7.7 AdaDelta算法

最新推荐文章于 2024-03-12 15:09:21 发布

AI_Younger_Man

最新推荐文章于 2024-03-12 15:09:21 发布

阅读量386

点赞数

分类专栏： # 深度学习

本文链接：https://blog.csdn.net/qq_38888209/article/details/107931046

版权

深度学习专栏收录该内容

65 篇文章 9 订阅

订阅专栏

def init_adadelta_states():
s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
return ((s_w, delta_w), (s_b, delta_b))

def adadelta(params, states, hyperparams):
rho, eps = hyperparams[‘rho’], 1e-5
for p, (s, delta) in zip(params, states):
s[:] = rho s + (1 - rho) (p.grad.data**2)
g = p.grad.data torch.sqrt((delta + eps) / (s + eps))
p.data -= g
delta[:] = rho delta + (1 - rho) g gCopy to clipboardErrorCopied

使用超参数 $\rho=0.9$ $ρ = 0.9$ 来训练模型。

d2l.train_ch7(adadelta, init_adadelta_states(), {‘rho’: 0.9}, features, labels)Copy to clipboardErrorCopied

输出：

loss: 0.243728, 0.062991 sec per epochCopy to clipboardErrorCopied

7.7.3 简洁实现

通过名称为Adadelta的优化器方法，我们便可使用PyTorch提供的AdaDelta算法。它的超参数可以通过rho来指定。

d2l.train_pytorch_ch7(torch.optim.Adadelta, {'rho': 0.9}, features, labels)Copy to clipboardErrorCopied

输出：

loss: 0.242104, 0.047702 sec per epochCopy to clipboardErrorCopied

小结

AdaDelta算法没有学习率超参数，它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

参考文献

[1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.

注：除代码外本节与原书此节基本相同，原书传送门

AI_Younger_Man

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

动手学深度学习：7.7 AdaDelta算法

7.7 AdaDelta算法

7.7.1 算法

7.7.3 简洁实现

小结

参考文献