神经网络的滑动平均模型

若采用随机梯度下降算法训练神经网络,为了控制网络更新速度,常采用滑动平均模型进行优化,使得网络在测试数据集中表现更好。
TensorFlow提供了tf.train.ExponentialMovingAverage来实现滑动平均模型,输入参数有衰减率(decay),用于控制网络的更新速度。ExponentialMovingAverage对滑动平均的变量会生成一个影子变量,这个影子变量的初始值就是相应变量的初始值,在每次运行变量更新时,会使用影子变量迭代生成新的滑动变量:
shadow_variable = decay*shadow_variable+(1-decay)*variable
其中,shadow_variable为影子变量,variable为初始输入值,decay为衰减率,所以可以看出,decay决定了网络更新的速度,decay越大网络越趋于稳定。在实际应用中,decay一般会被设置成非常接近1的数,例如0.999或者0.9999。但是为了网络在前期训练的更快,ExponentialMovingAverage还提供了num_updates参数来动态设置decay的大小,有num_updates的衰减率公式为:
min{decay, (1+num_updates)/(10+num_updates)}。设置ExponentialMovingAverage的代码为:

import tensorflow as tf

v1 = tf.Variable(0, dtype=tf.float32)
#step变量模拟神经网络中迭代的轮数,可以用于动态控制衰减率
step = tf.Variable(0, trainable=False)

#定义一个滑动平均的类ema,初始化时给定衰减率(0.99)和控制衰减率的变量step
ema = tf.train.ExponentialMovingAverage(0.99, step)
#定义一个更新变量滑动平均的操作。需要给定一个列表[v1],每次执行这个操作时,这个列表中的变量都会被更新
maintain_average_op = ema.apply([v1])

with tf.Session() as sess:
    #初始化所有变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)

    #通过ema.average(v1)获取滑动平均之后变量的取值,在初始化之后变量v1的值和v1的滑动平均都是0
    print(sess.run([v1, ema.average(v1)]))

    #更新变量v1的值到5
    sess.run(tf.assign(v1, 5))
    #更新v1的滑动平均值,衰减率为min{0.99, (1+step)/(10+step)=0.1}=0.1
    #所以v1的滑动平均会被更新为0.1*0+0.9*5=4.5
    sess.run(maintain_average_op)
    print(sess.run([v1, ema.average(v1)])) #输出[5.0,4.5]

    #更新step为10000,step越大衰减率越大
    sess.run(tf.assign(step, 10000))
    sess.run(tf.assign(v1, 10)) #v1=10
    #更新v1的滑动平均值,衰减率为min{0.99, 0.999}=0.99, v1为4.555
    sess.run(maintain_average_op)
    print(sess.run([v1, ema.average(v1)]))
    #再次更新滑动平均值
    sess.run(maintain_average_op)
    print(sess.run([v1, ema.average(v1)]))

>>[0.0, 0.0]
[5.0, 4.5]
[10.0, 4.5549998]
[10.0, 4.6094499]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值