本文是《TensorFlow从浅入深》系列之第5篇
TensorFlow从浅入深系列之一 -- 教你如何设置学习率(指数衰减法)
TensorFlow从浅入深系列之二 -- 教你通过思维导图深度理解深层神经网络
TensorFlow从浅入深系列之三 -- 教你如何对MNIST手写识别
TensorFlow从浅入深系列之四 -- 教你深入理解过拟合问题(正则化)
目录
代码说明ExponentialMovingAverage用法:
滑动平均模型:
滑动平均模型一一可以便模型在测试数据上更健壮(robust)。
TensorFlow 中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,需要提供一个衰减率(decay)。这个衰减率将用于控制模型更新的速度。
ExponentialMovingAverage对每一个变量会维护一个影子变量(shadow variable),这个影子变量的初始值就是相应变量的初始值,而每次运行变量更新时,影子变量的值会更新为 :
shadow_ variable = decay x shadow_ variable+ (1- decay)×variable
其中shadow_ variable为影子变量,variable为待更新的变量,decay为衰减率。从公式中可以看到,decay决定了模型更新的速度, decay 越大模型越趋于稳定。在实际应用中,decay一般会设成非常接近1的数(比如0.999 或0.9999)。
为了使得模型在训练前期可以更新得更快,ExponentialMovingAverage还提供了num_updates参数来动态设置decay的大小 。如果在ExponentialMovingAverage初始化时提供了num_updates参数,那么每次使用的衰减率将是 :
代码说明ExponentialMovingAverage用法:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import tensorflow as tf
# 定义一个变量用于计算滑动平均,这个变量的初始值为0,注意这里手动指定了变量的类型为float32,因为所需要计算滑动平均的变量必须是实数型
v1 = tf.Variable(0, dtype=tf.float32)
# 这里step变量模拟神经网络函数中迭代的轮数,可以用于动态控制衰减率
step = tf.Variable(0, trainable=False)
# 定义一个滑动平均的类,初始化时给定衰减率(0.99)和控制衰减变量的step
ema = tf.train.ExponentialMovingAverage(0.99, step)
# 定义一个更新变量滑动平均的操作。这里需要给定一个列表,每次执行这个操作时这个列表中的变量都会更新
maintain_average_op = ema.apply([v1])
with tf.Session() as sess:
# 初始化所有变量
init_op = tf.global_variables_initializer()
sess.run(init_op)
# 通过ema.average(v1)来获取滑动平均之后变量的取值。在初始化之后变量v1的值和v1的滑动平均都为0
print(sess.run([v1, ema.average(v1)])) # 输出[0.0, 0.0]
# 更新变量v1的值到5
sess.run(tf.assign(v1, 5))
# 更新vl的值。衰减率为min{0.99 ,(l+step)/(lO+step)= 0.1)=0.l
# 所以vl的滑动平均会被更新为0.1×0+0.9×5=4.5。
sess.run(maintain_average_op)
print(sess.run([v1, ema.average(v1)])) # 输出[5.0, 4.5]
运行结果:
[0.0, 0.0]
[5.0, 4.5]
ExponentialMovingAverage使用步骤:
定义一个滑动平均的类,初始化衰减率(接近1)和控制衰减变量的step:ema = tf.train.ExponentialMovingAverage(0.99, step)
定义一个更新变量滑动平均的操作:maintain_average_op = ema.apply([变量])
获取滑动平均之后的取值:通过ema.average(变量)