Nesterov Momentum 工程实现上的trick
Nesterov Momentum是momentum这种优化方法的一个变种,其参数更新规则这样的:
v←αv+grad(θ+αv)θ←θ−lr⋅v
参数更新规则这样写有一个问题。一般情况下,(以tensorflow为例)optimizationMethod所接受的参数只有计算好的 grad(θ) 和 θ , 那么我们怎么计算 grad(θ+αv)
Nesterov Momentum是momentum这种优化方法的一个变种,其参数更新规则这样的:
参数更新规则这样写有一个问题。一般情况下,(以tensorflow为例)optimizationMethod所接受的参数只有计算好的 grad(θ) 和 θ , 那么我们怎么计算 grad(θ+αv)