Tensorflow入门——影子变量（shadow_variable）如何影响训练过程

最新推荐文章于 2023-09-28 09:48:37 发布

umbrellalalalala

最新推荐文章于 2023-09-28 09:48:37 发布

阅读量2.6k

点赞数 4

分类专栏： AI编程文章标签：滑动平均模型影子变量 shadow_variable

本文链接：https://blog.csdn.net/umbrellalalalala/article/details/86513958

版权

AI编程专栏收录该内容

20 篇文章 4 订阅

订阅专栏

滑动平均模型公式：
$shadow\_variable=decay\times shadow\_variable+(1-decay)\times variable$
上式 $shadow\_variable$ 的初值是相应模型变量的初始值，用来保存更新过程中变量的滑动平均值， $v a r i a b l e$ 是待更新的变量新值，显然，衰减率 $d e c a y$ 越大，影子变量更新越慢。

今天看有些博客提到：模型变量和其影子变量不会直接相互赋值，博客评论也有“那么影子变量如何在实际训练中起作用”的疑问。
博主查阅了《Tensorflow实战Google深度学习框架（第2版）》，找了个使用滑动平均模型的代码好好分析了下，发现代码中有如下部分：

if avg_class = None:	# 如果不使用滑动平均模型
	layer1 = tf.nn.relu(tf.matual(input_tensor, weights1) + biases1)
	……
else:	# 如果使用滑动平均模型
	layer1 = tf.nn.relu(tf.matual(input_tensor, avg_class.average(weights1)) + biases1)	# avg_class.average(weights1)是weights1的滑动平均值
	……

我只截取了关键部分，可见，“模型变量和其影子变量不会直接相互赋值”的意思似乎是：影子变量仅用来保存变量的滑动平均值，如果不使用滑动平均模型，就取变量自身的值；如果想使用滑动平均模型，就取其影子变量的值（上述代码使用avg_class.average()来取某变量的滑动平均值，这个值应该是用影子变量来保存的）。

以上。如果大家认为我说的不对，欢迎指正。

umbrellalalalala

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
Tensorflow入门——影子变量（shadow_variable）如何影响训练过程

滑动平均模型公式：shadow_variable=decay×shadow_variable+(1−decay)×variableshadow\_variable=decay\times shadow\_variable+(1-decay)\times variableshadow_variable=decay×shadow_variable+(1−decay)×variable上式shado...
复制链接

扫一扫