在采用了随机梯度下降算法进行神经网络训练时,使用滑动平均模型在很多应用中可以一定程度上提高最终模型在测试数据中的表现。Tensorflow中提供 tf.train.ExponentialMovingAverage实现这个功能。在初始化时,需要提供一个衰减率,用于控制模型的更新速度。影子变量更新公式:shadow_variable = dacay*shadow_variable + (1 - decay)*variable。shadow_variable是影子变量,variable是等待更新的变量,decay是衰减率。从公式可以看出decay越接近于1,越稳定。衰减率公式为:min{delay,(1+num_updates)/(10+num_updates)}。num_updates表示迭代次数。
import tensorflow as tf
v1 = tf.Variable(0, dtype = tf.float32) #该变量用于计算滑动平均,初始值为0
step = tf.Variable(0, trainable=False)#模拟神经网络中迭代次数次数的论述,用于动态控制衰减率
ema = tf.train.ExponentialMovingAverage(0.99, step) # set the decay 0.99,初始化时设置衰减率0.99和控制衰减率的变量step
#给定一个列表,每次执行这个操作时都会进行更新。
maintain_averages_op = ema.apply([v1])
with tf.Session() as sess:
init = tf.global_variables_initializer()
sess.run(init)
#ema.average(v1)获得滑动平均之后变量的取值。在初始化变量之后v1值和v1的滑动平均为0
print sess.run([v1, ema.average(v1)])
#更新变量v1值为5
sess.run(tf.assign(v1, 5))
#更新滑动平均值,衰减率min{0.99,(1+step)/(10+step)} = 0.1
#v1的滑动平均值为0.1*0 + 0.9*5=4.5
sess.run(maintain_averages_op)
print sess.run([v1, ema.average(v1)])
sess.run(tf.assign(step, 10000))
#v1的滑动平均值为0.99*4.5 + 0.01*10=4.555
sess.run(tf.assign(v1, 10))
sess.run(maintain_averages_op)
print sess.run([v1, ema.average(v1)])
sess.run(maintain_averages_op)
print sess.run([v1, ema.average(v1)])