7.6 RMSProp算法
我们在7.5节(AdaGrad算法)中提到,因为调整学习率时分母上的变量stst \boldsymbol{s}_tf(x)=0.1x12+2x22中自变量的迭代轨迹。回忆在7.5节(AdaGrad算法)使用的学习率为0.4的AdaGrad算法,自变量在迭代后期的移动幅度较小。但在同样的学习率下,RMSProp算法可以更快逼近最优解。
%matplotlib inline
import math
import torch
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
def rmsprop_2d(x1, x2, s1,<