tensorflow--滑动平均模型

在采用随机梯度下降算法训练神经网络时,一般使用滑动平均模型会在一定程度上提高最终模型在测试数据上的表现。Tensorflow中提供了tf.train.ExponetialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,要提供一个衰减率decay,也可以提供一个steps用于动态改变衰减率。衰减率用于控制模型更新速度,ExponentialMovingAverage对每一个变量维护一个影子变量(shadow variable),这个影子变量的初始值就是相应变量的初始值,而每次运行变量更新时,影子变量的值会更新为:

shadow_variable = decay*shadow_variable+(1-decay)*variable

shadow_variable为影子变量,variable为待更新的变量,decay为衰减率。decay决定了模型更新的速度,decay越大模型越趋于稳定。在实际应用中decay一般设非常接近1(如0.999或0.9999),为使前期训练更快,还可以提供steps参数来动态设置decay。

decay = min{decay,   (1+steps)/(10+steps)}

实例如下:

import tensorflow as tf
#定义一个变量用于计算滑动平均, 这个变量的初始值为0,所有需要计算滑动平均的变量必须是实数型,所以这里定义为float
v1 = tf.Variable(0, dtype=tf.float32)
#这里step变量模拟神经网络中迭代的轮数,用于动态控制衰减率
step = tf.Variable(0,trainable=False)
#定义一个滑动平均的类(class),初始化时给定衰减率0.99,控制衰减率的变量step。
ema = tf.train.ExponentialMovingAverage(0.99, step)
#定义一个更新变量滑动平均的操作。这里需要给定一个列表,每次执行这个操作时,这个列表中的变量都会被更新。
maintain_averages_op = ema.apply([v1])
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    #通过ema.average(v1)获取滑动平均之后变量的取值。在初始化之后变量v1的值和v1的滑动平均都为0
    print(sess.run([v1, ema.average(v1)]))
    
    sess.run(tf.assign(v1,5))
    #更新v1的滑动平均值。衰减率为min{0.99, 1+step/10+step=0.1}=0.1,所以v1的滑动平均被更新为0.1*0+0.9*5=4.5
    sess.run(maintain_averages_op)
    print(sess.run([v1, ema.average(v1)]))
    
    sess.run(tf.assign(step, 10000))
    sess.run(tf.assign(v1, 10))
    #更新v1的滑动平均值,衰减率为0.99,所以v1的滑动平均被更新为0.99*4.5+0.01*10=4.555
    sess.run(maintain_averages_op)
    print(sess.run([v1, ema.average(v1)]))
    
    #再次更新滑动平均值,得到新的滑动平均值为0.99*4.555+0.01*10=4.60945
    sess.run(maintain_averages_op)
    print(sess.run([v1, ema.average(v1)]))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值