这一节分享另一个优化方法:滑动平均。有些书里把它叫做“影子值”。滑动平均记录了每个参数一段时间内过往值的平均。由于滑动平均值不仅表现了当前值,还表现了过去一段时间内的平均值,这样可以增加模型的泛化性。 滑动平均通常针对所有参数进行优化,包括所有的w和b。 滑动平均的感觉就好比给参数加了个影子,参数变化,影子缓慢追随。
滑动平均值是这样计算的:
影子等于衰减率乘以影子,加上(1-衰减率)乘以参数。衰减率等于MOVING_AVERAGE_DECAY与(1+轮数)/(10+轮数)中小的那一个。 |
神经网络的优化(2)---- 滑动平均 ema
最新推荐文章于 2024-06-03 18:37:37 发布