1)在编程时我发现,如果某一程序使用tensorflow占用了GPU的话,另一个使用了tensorflow的程序将无法运行,这是因为系统默认将GPU占满,但是7个多G的内存,该程序可能并用不完这么多内存(一般也就几百兆),那么剩余的就完全浪费了。指定以增量方式使用GPU:默认会占满GPU,可以使用以下代码来指定要用多少就占多少GPU的方式来运行程序:
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
with tf.Session(config=config) as sess:
2)在训练时发现设定条件上次的两个loss和本次的两个loss相等时可以认为模型已经达到收敛了,可以在训练轮数未满时提前结束训练。然而这个这种方式有两个问题:一是虽然本次和上次相等了,这存在一定的随机性,下次就未必与本次相等了,导致模型并没有训练完;二是有可能结果在训练到一半时就已经收敛了,但是由于loss是float型的,然两个loss在两次训练中的结果完全相等,可能等到所有训练轮数都跑完了也未必会实现,接着训练就是在浪费时间,所以这是可以捕捉一个KeyboardInterrupt异常,当我认为模型收敛时,结束程序,他会转向执行except中的代码(存储模型)。
Try:
训练模型的code…
except KeyboardInterrupt:
print('[INFO] Interrupt manually,try saving checkpoint for now...')
saver.save(sess,os.path.join(FLAGS.checkpoints_dir, FLAGS.model_prefix), global_step=epoch)