深度学习实践技巧
学习率的选择与切换:
初期Adam,后期SGD,切换方法参考:Improving Generalization Performance by Switching from Adam to SGD
首先来看第1个问题,切换之后用什么样的学习率。
Adam的下降方向是
ntAdam=(α/Vt)∗mt
n^{Adam}_t = (\alpha/\sqrt{V_t})*m_t
ntAdam=(α/Vt)∗mt
而SGD的下降方向是.
ntSGD=αSGD⋅gt
n^{SGD}_t = \alpha^{S
原创
2020-07-25 12:49:52 ·
222 阅读 ·
0 评论