Momentum是为了对冲mini-batch带来的抖动。
RMSprop是为了对hyper-parameter进行归一,均方根反向传播(RMSProp)。
这两个加起来就是Adam
看原始的RMSProp算法:
再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。
---------------------
作者:BigCowPeking
来源:CSDN
原文:https://blog.csdn.net/wfei101/article/details/79950510
版权声明:本文为博主原创文章,转载请附上博文链接!