7.7 AdaDelta算法
除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是,AdaDelta算法没有学习率这一超参数。
7.7.1 算法
AdaDelta算法也像RMSProp算法一样,使用了小批量随机梯度gtgt \boldsymbol{g}_tΔxt。我们按AdaDelta算法中的公式实现该算法。
%matplotlib inline
import torch
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
features, labels = d2l.get_data_ch7()
def init_adadelta_states():
s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
return ((s_w, delta_w), (s_b, delta_b))
def adadelta(params, states, hyperparams):
rho, eps = hyperparams[‘rho’], 1e-5
for p, (s, delta) in zip(params, states):
s[:] = rho s + (1 - rho) (p.grad.data**2)
g = p.grad.data torch.sqrt((delta + eps) / (s + eps))
p.data -= g
delta[:] = rho delta + (1 - rho) g gCopy to clipboardErrorCopied
使用超参数ρ=0.9ρ=0.9 \rho=0.9ρ=0.9来训练模型。
d2l.train_ch7(adadelta, init_adadelta_states(), {‘rho’: 0.9}, features, labels)
Copy to clipboardErrorCopied
输出:
loss: 0.243728, 0.062991 sec per epoch
Copy to clipboardErrorCopied
7.7.3 简洁实现
通过名称为Adadelta
的优化器方法,我们便可使用PyTorch提供的AdaDelta算法。它的超参数可以通过rho
来指定。
d2l.train_pytorch_ch7(torch.optim.Adadelta, {'rho': 0.9}, features, labels)
Copy to clipboardErrorCopied
输出:
loss: 0.242104, 0.047702 sec per epoch
Copy to clipboardErrorCopied
小结
- AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。
参考文献
[1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.
注:除代码外本节与原书此节基本相同,原书传送门