（Tensorflow之六）滑动平均模型ExponentialMovingAverage

最新推荐文章于 2020-03-22 15:18:58 发布

abiggg

最新推荐文章于 2020-03-22 15:18:58 发布

阅读量2.4k

点赞数 1

分类专栏： AI python 文章标签： Tensorflow

本文链接：https://blog.csdn.net/abiggg/article/details/78946007

版权

AI 同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

python

6 篇文章 0 订阅

订阅专栏

1、计算方法

设 $\{a_1,a_2,a_3,...,a_n\}$ ,其衰减率为 $decay$ ,对应的影子变量为：
$\{m_1,m_2,m_3,...,m_n\}$ ,则：

m n = d e c a y * m n - 1 + (1 - d e c a y) * a n

$m_n = decay*m_{n-1}+(1-decay)*a_n$
可以展开来分析：

m 1 = a 1

$m_1 = a_1$

m 2 = d e c a y * a 1 + (1 - d e c a y) * a 2

$m_2 =decay*a_1+(1-decay)*a_2$

m 3 = d e c a y * m 2 + (1 - d e c a y) * a 3 = d e c a y 2 * a 1 + (1 - d e c a y) * d e c a y * a 2 + (1 - d e c a y) * a 3

$m_3=decay*m_2+(1-decay)*a_3 =decay^2*a_1+(1-decay)*decay*a_2+(1-decay)*a_3$

m 4 = d e c a y * m 3 + (1 - d e c a y) * a 4 = d e c a y 3 * a 1 + (1 - d e c a y) * d e c a y 2 * a 2 + (1 - d e c a y) * d e c a y * a 3 + (1 - d e c a y) * a 4

$m_4 = decay*m_3+(1-decay)*a_4 = decay^3*a_1+(1-decay)*decay^2*a_2+(1-decay)*decay*a_3+(1-decay)*a_4$

. . . . . .

$......$
以其类推

m n = d e c a y * m n - 1 + (1 - d e c a y) * a n = d e c a y n - 1 * a 1 + d e c a y n - 2 * (1 - d e c a y) + . . . + (1 - d e c a y) * a n

$m_n = decay*m_{n-1}+(1-decay)*a_n = decay^{n-1}*a_1 +decay^{n-2}*(1-decay)+...+(1-decay)*a_n$
一般而言，为了使模型趋于收敛，会选择decay为接近1的数，例如：
decay = 0.99;
那么：

m 1 = a 1

$m_1 = a_1$

m 2 = 0.99 * a 1 + 0.01 * a 2

$m_2 =0.99*a_1+0.01*a_2$

m 3 = 0.99 * m 2 + 0.01 * a 3 = 0.99 2 * a 1 + 0.01 * 0.99 * a 2 + 0.01 * a 3

$m_3=0.99*m_2+0.01*a_3 =0.99^2*a_1+0.01*0.99*a_2+0.01*a_3$
我们发现初始值对后面影响非常大，若初始值与真实值偏差较大时，函数收敛速度非常慢；为了解决该问题，tensorflow提供了num_updates参数来动态设置decay的大小；

decay=min{DECAY,1+num_updates10+num_updates}

$decay= min\{DECAY,\frac{1+num\_updates}{10+num\_updates}\}$

例：
DECAY = 0.99
第一轮，先设num_updates = 0;
那么：

d e c a y = m i n {0.99, 1 + 0 10 + 0} = 0.1

$decay= min\{0.99,\frac{1+0}{10+0}\} =0.1$
则：

m 1 = a 1

$m_1 = a_1$

m 2 = 0.1 * a 1 + 0.9 * a 2

$m_2 =0.1*a_1+0.9*a_2$
第二轮，可设num_updates = 100
那么：

d e c a y = m i n {0.99, 1 + 101 10 + 100} = 0.91

$decay= min\{0.99,\frac{1+101}{10+100}\} =0.91$
则：

m 3 = 0.91 * m 2 + 0.09 * a 3

$m_3=0.91*m_2+0.09*a_3$
以此类推，从而可以动态调整decay值大小。

import tensorflow as tf

test1 = tf.Variable(0,dtype=tf.float32)
num_updates = tf.Variable(0,dtype=tf.float32)
DECAY = 0.99

Moving_average = tf.train.ExponentialMovingAverage(DECAY,num_updates)

#跟新test1
Moving_average_op = Moving_average.apply([test1])

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    #第一次打印出初始值，滑动平均值,输出值应该为[0，0]
    print(sess.run([test1,Moving_average.average(test1)]))

    #更新test1
    sess.run(tf.assign(test1,3))
    sess.run(Moving_average_op)
    #第二次打印初始值，滑动平均值,输出值应该为[3，0],滑动平均值计算0*0.1+0.9*3=2.7
    print(sess.run([test1,Moving_average.average(test1)]))

    #更新test2与num_updates
    sess.run(tf.assign(test1,5))
    sess.run(tf.assign(num_updates,90))
    sess.run(Moving_average_op)
    #第三次打印初始值，滑动平均值,输出值应该为[3，0],滑动平均值计算2.7*0.91+5*0.09
    print(sess.run([test1,Moving_average.average(test1)]))

输出值

[0.0, 0.0]
[3.0, 2.6999998]
[5.0, 2.9069998]

abiggg

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
（Tensorflow之六）滑动平均模型ExponentialMovingAverage

1、计算方法设{a1,a2,a3,...,an}\{a_1,a_2,a_3,...,a_n\},其衰减率为decaydecay,对应的影子变量为： {m1,m2,m3,...,mn}\{m_1,m_2,m_3,...,m_n\},则： mn=decay∗mn−1+(1−decay)∗anm_n = decay*m_{n-1}+(1-decay)*a_n 可以展开来分析： m1=a1m_1 =
复制链接

扫一扫

专栏目录