1、优化算法通用框架
定义; 待优化参数w,目标函数:f(w), 初始学习率 α α ,开始进行迭代优化,在每个epoch t 中,一般会有四个步骤:
- 计算目标函数关于当前参数的梯度:
gt=∇f(wt) g t = ∇ f ( w t )
- 根据历史梯度计算第一阶动量和第二阶动量:
mt=ϕ(g1,g2,g3.....,gt) m t = ϕ ( g 1 , g 2 , g 3 . . . . . , g t )Vt=φ(g1,g2,g3.....,gt) V t = φ ( g 1 , g 2 , g 3 . . . . . , g t )
- 计算当前时刻的下降梯度:
ηt+1=α⋅mt/Vt−−√ η t + 1 = α ⋅ m t / V t </