有时候模型特别大,训练时间特别长,如果没有设置checkpoint,中间如果出现一些不可控因素时,那之前训练的结果就都没有了,就白白浪费了人力物力资源。所以,在模型训练一定时间后,应该为它保存checkpoint,这个也为后面使用模型中的一些参数提供了方便。那我们以线性模型为例:
import tensorflow as tf
import numpy as np
# 1 生成模拟数据
train_x = np.linspace(-1,1,100) # 生成100个-1到1之间的数据点
train_y = 2 * train_x + np.random.randn(100) * 0.3 # y=2*x 但是加入了噪声
tf.reset_default_graph() #重新初始化图
# 2 搭建模型
X = tf.placeholder('float')
Y = tf.placeholder('float')
W = tf.Variable(tf.random_normal([1]),name='weight')
b = tf.Variable(tf.zeros([1]),name='bias')
z = tf.multiply(X,W)+b
cost = tf.reduce_mean(tf.square(Y - z))
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)
training_epochs = 20
display_step = 2
saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'
init = tf.global_variables_initializer()
with tf.Session() as sess:
sess.run(init)
for epoch in range(training_epochs):
for (x,y) in zip(train_x,train_y):
sess.run(optimizer,feed_dict={X:x,Y:y})
if epoch % display_step == 0:
loss = sess.run(cost,feed_dict={X:train_x,Y:train_y})
print('Epoch:',epoch+1,'loss=',loss,'W=',sess.run(W),'b=',sess.run(b))
saver.save(sess, savedir + 'linermodel.ckpt',global_step=epoch) # global_step参数可选
print('finished')
print('loss=',sess.run(cost,feed_dict={X:train_x,Y:train_y}),'W=',sess.run(W),'b=',sess.run(b))
我们建立了一个简单的线性回归模型,想要设置checkpoint,就要有保存路径,使用save进行保存。max_to_keep指的是做多保存几个checkpoint,None默认最多5个,会保存最近的5个,这里设置50,意思是想要保存所有checkpoint。
saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'
此时,训练完以后,我们的checkpoint就保存在log文件夹下了,每一次保存checkpoint都会保存4个文件。至于这4个文件分别保存了什么内容,可自行百度。
保存好以后,接下来就是使用了。
load_epoch = 18 #可选,此处表明要使用18这个标号的断点
with tf.Session() as sess2:
sess2.run(tf.global_variables_initializer())
saver.restore(sess2,savedir+'linermodel.ckpt-'+str(load_epoch))
print('x=0.2,z=',sess2.run(z,feed_dict={X:0.2}))
with tf.Session() as sess3:
sess3.run(tf.global_variables_initializer())
ckpt = tf.train.get_checkpoint_state(savedir)
if ckpt and ckpt.model_checkpoint_path:
saver.restore(sess3,ckpt.model_checkpoint_path)
print('x=0.2,z=',sess3.run(z,feed_dict={X:0.2}))
with tf.Session() as sess4:
sess4.run(tf.global_variables_initializer())
ckpt = tf.train.latest_checkpoint(savedir)
if ckpt != None:
saver.restore(sess4,ckpt)
print('x=0.2,z=',sess4.run(z,feed_dict={X:0.2}))
以上三种方式,都实现的是同样一个功能,就是重载最后一个checkpoint,用这个checkpoint中的参数数据去计算。