对指数滑动平均ExponentialMovingAverage的理解

最新推荐文章于 2023-06-30 19:34:13 发布

dreamandgo

最新推荐文章于 2023-06-30 19:34:13 发布

阅读量1k

点赞数 1

分类专栏：基础知识文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_40051325/article/details/107152133

版权

基础知识专栏收录该内容

35 篇文章 2 订阅

订阅专栏

本文主要借鉴参考以下文章，感谢原作者们！

根据以上文章，整理学习笔记如下，如有不同观点，欢迎批评指正！

1. 背景/应用

广泛应用在深度学习的BN层中，RMSprop，adadelta，adam等梯度下降方法。
在神经元网络中，梯度下降算法用来优化反向传播算法中的参数的取值。但是梯度下降算法有两个问题：
（1）优化过程可能得到的是局部最优。
（2）计算时间太长。
为了加速训练过程，一般使用随机梯度下降算法（stochastic gradient descent）。而在使用随机梯度下降算法训练神经元网络的时候，又经常通过滑动平均模型来提高最终模型在测试数据上的表现。

2. 滑动平均模型

公式：

shadow_variable = decay * shadow_variable + (1 - decay) * variable

上式shadow_variable 的初始值是相应模型变量的初始值，用来保存更新过程中变量的滑动平均值，variable是待更新的变量值（即相应模型变量），显然，衰减率decay越大，影子变量更新越慢。
那么影子变量如何在实际训练中起作用呢？
《Tensorflow实战Google深度学习框架（第2版）》，滑动平均模型的代码有如下部分：

if avg_class = None:	# 如果不使用滑动平均模型
	layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
	……
else:	# 如果使用滑动平均模型
	layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + biases1)	# avg_class.average(weights1)是weights1的滑动平均值
	……

影子变量仅用来保存变量的滑动平均值，
如果不使用滑动平均模型，就取变量自身的值；
如果想使用滑动平均模型，就取其影子变量的值（上述代码使用avg_class.average()来取某变量的滑动平均值，这个值应该是用影子变量来保存的）。
所以，我目前的理解 是：“创建影子变量，影子变量根据自身及原变量（即上述公式）更新后会传给原变量，然后原变量进行相应卷积、池化等运算，然后周而复始。”

3. Tensorflow中滑动平均的实现

API： tf.train.ExponentialMovingAverage（decay, num_updates=None, name=‘ExponentialMovingAverage’）
其中，衰减率decay用于控制模型的更新速度，一般设置为非常接近1的数，比如0.9999，为了在初期快速的更新，可以设置num_updates，比如num_updates=global_step，那么dacay将会根据如下公式选择decay值：

                min(decay, (1 + num_updates) / (10 + num_updates))

如果不设置num_updates,那么decay将为一个固定的值。
备注： 这里的一个trick是，
在这里插入图片描述
例如：
0.95^(20)=0.3584
1/e=0.3678
两者是近似相等的，也许这就是指数滑动平均中指数的含义~

4. Tensorflow文档中的例子

# Create variables.
var0 = tf.Variable(...)
var1 = tf.Variable(...)
# ... use the variables to build a training model...
 
# Create an op that applies the optimizer.  This is what we usually
# would use as a training op.
opt_op = opt.minimize(my_loss, [var0, var1])
 
# Create an ExponentialMovingAverage object
ema = tf.train.ExponentialMovingAverage(decay=0.9999)
 
# Create the shadow variables, and add ops to maintain moving averages of var0 and var1.
maintain_averages_op = ema.apply([var0, var1])
 
# Create an op that will update the moving averages after each training step.  
# This is what we will use in place of the usual training op.
with tf.control_dependencies([opt_op]):
    training_op = tf.group(maintain_averages_op)
 
#...train the model by running training_op...

上面的例子中用到了tf.control_dependencies()，它的作用如下所示，也就是说用来控制计算流图的，给图中的某些计算指定顺序。更多可以参考tf.control_dependencies（TensorFlow官方API翻译）。

with g.control_dependencies([a, b, c]):
  # `d` and `e` will only run after `a`, `b`, and `c` have executed.
  d = ...
  e = ...

这个例子体现出使用MovingAverage的三个要素。
（1）指定decay参数创建实例对象：
ema = tf.train.ExponentialMovingAverage(decay=0.9999)
（2）对模型变量使用apply方法：
maintain_averages_op = ema.apply([var0, var1])
（3）在优化方法使用梯度更新模型参数后执行MovingAverage：

with tf.control_dependencies([opt_op]):
    training_op = tf.group(maintain_averages_op)

其中，tf.group将传入的操作捆绑成一个操作。

dreamandgo

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对指数滑动平均ExponentialMovingAverage的理解

本文主要借鉴参考以下文章，感谢原作者们！指数滑动平均(ExponentialMovingAverage)EMATensorflow中ExponentialMovingAverage的原理及用法TensorFlow基础学习——TensorFlow里“滑动平均模型”中“影子变量”的理解Tensorflow入门——影子变量（shadow_variable）如何影响训练过程根据以上文章，整理学习笔记如下，如有不同观点，欢迎批评指正！1. 背景/应用广泛应用在深度学习的BN层中，RMSprop，ad
复制链接

扫一扫