7.8 Adam算法
Adam算法在RMSProp算法基础上对小批量随机梯度也做了指数加权移动平均 [1]。下面我们来介绍这个算法。
所以Adam算法可以看做是RMSProp算法与动量法的结合。
7.8.1 算法
Adam算法使用了动量变量vtvt \boldsymbol{v}_tt通过hyperparams
参数传入adam
函数。
%matplotlib inline
import torch
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
features, labels = d2l.get_data_ch7()
def init_adam_states():
v_w, v_b = torch.zeros