在Tensorflow中,为解决设定学习率(learning rate)问题,提供了指数衰减法来解决。
decayed_learning_rate=tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=True/False)
其中,decayed_learning_rate为每一轮优化时使用的学习率;
learning_rate为事先设定的初始学习率;
decay_rate为衰减系数;
decay_steps为衰减速度。
而tf.train.exponential_decay函数则可以通过staircase(默认值为False,当为True时,(global_step/decay_steps)则被转化为整数) ,选择不同的衰减方式。
例如:
import tensorflow as tf;
import numpy as np;
import matplotlib.pyplot as plt;
learning_rate = 0.1
decay_rate = 0.96
steps = 1000
decay_steps = 100
global_step = tf.Variable(tf.constant(0))
c = tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=True)#learning_rate:0.1;staircase=True;则每100轮训练后要乘以0.96
d = tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False) T_C = [] F_D = [] with tf.Session() as sess: for i in range(steps): T_c = sess.run(c,feed_dict={global_step: i}) T_C.append(T_c) F_d = sess.run(d,feed_dict={global_step: i}) F_D.append(F_d) plt.figure(1) plt.plot(range(steps), F_D, 'r-') plt.plot(range(steps), T_C, 'b-') plt.show()
分析:
初始的学习速率是0.1,总的迭代次数是1000次,如果staircase=True,那就表明每decay_steps次计算学习速率变化,更新原始学习速率,如果是False,那就是每一步都更新学习速率。红色表示False,绿色表示True。
结果: