【TensorFlow】TensorFlow从浅入深系列之五 -- 教你详解滑动平均模型

最新推荐文章于 2024-09-14 14:39:13 发布

置顶 SophiaCV

最新推荐文章于 2024-09-14 14:39:13 发布

阅读量654

点赞数

分类专栏： TensorFlow -- 从浅入深文章标签：《TensorFlow实战Google深度学习框架》人工智能神经网络滑动平均 TensorFlow

在公众号【计算机视觉联盟】后台回复【9076】获取独家200页AI笔记！

本文链接：https://blog.csdn.net/Sophia_11/article/details/84192617

版权

TensorFlow -- 从浅入深专栏收录该内容

19 篇文章 13 订阅

订阅专栏

本文是《TensorFlow从浅入深》系列之第5篇

TensorFlow从浅入深系列之一 -- 教你如何设置学习率（指数衰减法）

TensorFlow从浅入深系列之二 -- 教你通过思维导图深度理解深层神经网络

TensorFlow从浅入深系列之三 -- 教你如何对MNIST手写识别

TensorFlow从浅入深系列之四 -- 教你深入理解过拟合问题（正则化）

滑动平均模型：

代码说明ExponentialMovingAverage用法：

ExponentialMovingAverage使用步骤：

滑动平均模型：

滑动平均模型一一可以便模型在测试数据上更健壮（robust）。

TensorFlow 中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时，需要提供一个衰减率（decay）。这个衰减率将用于控制模型更新的速度。

ExponentialMovingAverage对每一个变量会维护一个影子变量（shadow variable），这个影子变量的初始值就是相应变量的初始值，而每次运行变量更新时，影子变量的值会更新为：

shadow_ variable = decay x shadow_ variable+ (1- decay)×variable

其中shadow_ variable为影子变量，variable为待更新的变量，decay为衰减率。从公式中可以看到，decay决定了模型更新的速度， decay 越大模型越趋于稳定。在实际应用中，decay一般会设成非常接近1的数（比如0.999 或0.9999）。

为了使得模型在训练前期可以更新得更快，ExponentialMovingAverage还提供了num_updates参数来动态设置decay的大小。如果在ExponentialMovingAverage初始化时提供了num_updates参数，那么每次使用的衰减率将是：

代码说明ExponentialMovingAverage用法：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import tensorflow as tf

# 定义一个变量用于计算滑动平均，这个变量的初始值为0，注意这里手动指定了变量的类型为float32，因为所需要计算滑动平均的变量必须是实数型
v1 = tf.Variable(0, dtype=tf.float32)
# 这里step变量模拟神经网络函数中迭代的轮数，可以用于动态控制衰减率
step = tf.Variable(0, trainable=False)

# 定义一个滑动平均的类，初始化时给定衰减率（0.99）和控制衰减变量的step
ema = tf.train.ExponentialMovingAverage(0.99, step)
# 定义一个更新变量滑动平均的操作。这里需要给定一个列表，每次执行这个操作时这个列表中的变量都会更新
maintain_average_op = ema.apply([v1])

with tf.Session() as sess:
    # 初始化所有变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)

    # 通过ema.average(v1)来获取滑动平均之后变量的取值。在初始化之后变量v1的值和v1的滑动平均都为0
    print(sess.run([v1, ema.average(v1)]))  # 输出[0.0, 0.0]

    # 更新变量v1的值到5
    sess.run(tf.assign(v1, 5))
    # 更新vl的值。衰减率为min{0.99 ,(l+step)/(lO+step)= 0.1)=0.l
    # 所以vl的滑动平均会被更新为0.1×0+0.9×5=4.5。
    sess.run(maintain_average_op)
    print(sess.run([v1, ema.average(v1)]))  # 输出[5.0, 4.5]

运行结果：

[0.0, 0.0]
[5.0, 4.5]

ExponentialMovingAverage使用步骤：

定义一个滑动平均的类，初始化衰减率（接近1）和控制衰减变量的step：ema = tf.train.ExponentialMovingAverage(0.99, step)

定义一个更新变量滑动平均的操作：maintain_average_op = ema.apply([变量])

获取滑动平均之后的取值：通过ema.average(变量)