函数
- tf.train.exponential_decay
tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)
功能:实现指数衰减学习率
内部代码实现
decayed_learning_rate = learning_rate*decay_rate^(global_step/decay_steps)
其中decayed_learning_rate为每一轮优化时使用的学习率;
learning_rate为事先设定的初始学习率
decay_rate为衰减系数;
decay_steps为衰减速度。
staircase=True时,global_step/decay_step会被转换为整数
具体代码用法
# 代码段1,直观感受staircase=False和staircase=True的情况
import tensorflow as tf
import matplotlib.pyplot as plt
learning_rate = 0.1
decay_rate = 0.96
global_steps = 1000
decay_steps = 100
global_ = tf.Variable(tf.constant(0))
c = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=True)
d = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=False)
T_C = []
F_D = []
with tf.Session() as sess:
for i in range(global_steps):
T_c = sess.run(c,feed_dict={global_: i})
T_C.append(T_c)
F_d = sess.run(d,feed_dict={global_: i})
F_D.append(F_d)
plt.figure(1)
plt.plot(range(global_steps), F_D, 'r-')
plt.plot(range(global_steps), T_C, 'b-')
plt.show()
#代码段2,如何使用该函数在最小算法上
global_step = tf.Variable(0,trainable = False)
starter_learning_rate = 0.02
learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step, 200, 0.96,staircase=True)
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(cross_entropy, global_step = global_step)
第一段代码的结果
解释:
第二段代码的含义是设置初始学习率为0.02,衰减速度为200轮,衰减系数为0.96,
即每训练200轮后学习率乘以0.96;衰减速度 = 总实例数 / batch;
初始学习率、衰减学习率、衰减系数这些都是根据经验设置的
使用tf.train.exponential_decay的好处
我们都知道,学习率的设置既不能过大,也不能过小。为了解决学习率的问题,TensorFlow提供了一种更加灵活的学习率设置方法——指数衰减法。
通过这个函数,我们可以在设置初始学习率的基础上,随着迭代的继续逐步减小学习率,使得模型在训练后期更加稳定。
参考
https://blog.csdn.net/wuguangbin1230/article/details/77658229
https://blog.csdn.net/uestc_c2_403/article/details/72213286
记录时间
2018/9/11 20:55