checkpoint

有时候模型特别大,训练时间特别长,如果没有设置checkpoint,中间如果出现一些不可控因素时,那之前训练的结果就都没有了,就白白浪费了人力物力资源。所以,在模型训练一定时间后,应该为它保存checkpoint,这个也为后面使用模型中的一些参数提供了方便。那我们以线性模型为例:

import tensorflow as tf
import numpy as np
# 1 生成模拟数据
train_x = np.linspace(-1,1,100) # 生成100个-1到1之间的数据点
train_y = 2 * train_x + np.random.randn(100) * 0.3  # y=2*x 但是加入了噪声

tf.reset_default_graph() #重新初始化图

# 2 搭建模型
X = tf.placeholder('float')
Y = tf.placeholder('float')

W = tf.Variable(tf.random_normal([1]),name='weight')
b = tf.Variable(tf.zeros([1]),name='bias')
z = tf.multiply(X,W)+b
cost = tf.reduce_mean(tf.square(Y - z))
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

training_epochs = 20
display_step = 2

saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'

init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    for epoch in range(training_epochs):
        for (x,y) in zip(train_x,train_y):
            sess.run(optimizer,feed_dict={X:x,Y:y})

        if epoch % display_step == 0:
            loss = sess.run(cost,feed_dict={X:train_x,Y:train_y})
            print('Epoch:',epoch+1,'loss=',loss,'W=',sess.run(W),'b=',sess.run(b))
            saver.save(sess, savedir + 'linermodel.ckpt',global_step=epoch) # global_step参数可选
    print('finished')

    print('loss=',sess.run(cost,feed_dict={X:train_x,Y:train_y}),'W=',sess.run(W),'b=',sess.run(b))

我们建立了一个简单的线性回归模型,想要设置checkpoint,就要有保存路径,使用save进行保存。max_to_keep指的是做多保存几个checkpoint,None默认最多5个,会保存最近的5个,这里设置50,意思是想要保存所有checkpoint。

saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'

此时,训练完以后,我们的checkpoint就保存在log文件夹下了,每一次保存checkpoint都会保存4个文件。至于这4个文件分别保存了什么内容,可自行百度。
在这里插入图片描述
保存好以后,接下来就是使用了。

load_epoch = 18  #可选,此处表明要使用18这个标号的断点
with tf.Session() as sess2:
    sess2.run(tf.global_variables_initializer())
    saver.restore(sess2,savedir+'linermodel.ckpt-'+str(load_epoch))
    print('x=0.2,z=',sess2.run(z,feed_dict={X:0.2}))

with tf.Session() as sess3:
    sess3.run(tf.global_variables_initializer())
    ckpt = tf.train.get_checkpoint_state(savedir)
    if ckpt and ckpt.model_checkpoint_path:
        saver.restore(sess3,ckpt.model_checkpoint_path)
        print('x=0.2,z=',sess3.run(z,feed_dict={X:0.2}))

with tf.Session() as sess4:
    sess4.run(tf.global_variables_initializer())
    ckpt = tf.train.latest_checkpoint(savedir)
    if ckpt != None:
        saver.restore(sess4,ckpt)
        print('x=0.2,z=',sess4.run(z,feed_dict={X:0.2}))

以上三种方式,都实现的是同样一个功能,就是重载最后一个checkpoint,用这个checkpoint中的参数数据去计算。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值