学习率 Momentum Momentum(动量,冲量):结合当前梯度与上一次更新信息,用于当前更新 optim.SGD optim.SGD(params, lr=<object object>, momentum=0,dampening=0, weight_decay=0,nesterov=False) 主要参数: params:管理的餐胡祖 lr: 初始学习率 momentum: 动量系数,贝塔 weight_decay: L2正则化系数 nesterov: 是否采用NAG