learning rate
当发现loss下降,然后又开始上升。很可能是learning rate 到后面太大导致的缘故。
所以应该使用带有衰减效果的learning rate.
session.run(tf.assign(learning_rate, 0.002 * (0.97 ** (step // decay_steps))))
estimator load checkpoint
在使用estimator的时候,只要model_dir传入了和之前是一样的,就会自动的从上次的checkpoint开始自动载入,增量训练。这样会大大的节省时间。如果每次的checkpoint都是从1 开始的,检查下是否每次就删除了model_dir. 例如: DNNLinearCombinedClassifier 就是这样的。