checkpoint

最新推荐文章于 2024-06-23 09:25:59 发布

XXin_YYYYYY

最新推荐文章于 2024-06-23 09:25:59 发布

阅读量745

点赞数 1

分类专栏：编程基础

本文链接：https://blog.csdn.net/weixin_43457197/article/details/104282519

版权

编程基础专栏收录该内容

12 篇文章 1 订阅

订阅专栏

有时候模型特别大，训练时间特别长，如果没有设置checkpoint，中间如果出现一些不可控因素时，那之前训练的结果就都没有了，就白白浪费了人力物力资源。所以，在模型训练一定时间后，应该为它保存checkpoint，这个也为后面使用模型中的一些参数提供了方便。那我们以线性模型为例：

import tensorflow as tf
import numpy as np
# 1 生成模拟数据
train_x = np.linspace(-1,1,100) # 生成100个-1到1之间的数据点
train_y = 2 * train_x + np.random.randn(100) * 0.3  # y=2*x 但是加入了噪声

tf.reset_default_graph() #重新初始化图

# 2 搭建模型
X = tf.placeholder('float')
Y = tf.placeholder('float')

W = tf.Variable(tf.random_normal([1]),name='weight')
b = tf.Variable(tf.zeros([1]),name='bias')
z = tf.multiply(X,W)+b
cost = tf.reduce_mean(tf.square(Y - z))
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

training_epochs = 20
display_step = 2

saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'

init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    for epoch in range(training_epochs):
        for (x,y) in zip(train_x,train_y):
            sess.run(optimizer,feed_dict={X:x,Y:y})

        if epoch % display_step == 0:
            loss = sess.run(cost,feed_dict={X:train_x,Y:train_y})
            print('Epoch:',epoch+1,'loss=',loss,'W=',sess.run(W),'b=',sess.run(b))
            saver.save(sess, savedir + 'linermodel.ckpt',global_step=epoch) # global_step参数可选
    print('finished')

    print('loss=',sess.run(cost,feed_dict={X:train_x,Y:train_y}),'W=',sess.run(W),'b=',sess.run(b))

我们建立了一个简单的线性回归模型，想要设置checkpoint，就要有保存路径，使用save进行保存。max_to_keep指的是做多保存几个checkpoint，None默认最多5个，会保存最近的5个，这里设置50，意思是想要保存所有checkpoint。

saver = tf.train.Saver(max_to_keep=50)
savedir = 'log/'

此时，训练完以后，我们的checkpoint就保存在log文件夹下了，每一次保存checkpoint都会保存4个文件。至于这4个文件分别保存了什么内容，可自行百度。
在这里插入图片描述
保存好以后，接下来就是使用了。

load_epoch = 18  #可选，此处表明要使用18这个标号的断点
with tf.Session() as sess2:
    sess2.run(tf.global_variables_initializer())
    saver.restore(sess2,savedir+'linermodel.ckpt-'+str(load_epoch))
    print('x=0.2,z=',sess2.run(z,feed_dict={X:0.2}))

with tf.Session() as sess3:
    sess3.run(tf.global_variables_initializer())
    ckpt = tf.train.get_checkpoint_state(savedir)
    if ckpt and ckpt.model_checkpoint_path:
        saver.restore(sess3,ckpt.model_checkpoint_path)
        print('x=0.2,z=',sess3.run(z,feed_dict={X:0.2}))

with tf.Session() as sess4:
    sess4.run(tf.global_variables_initializer())
    ckpt = tf.train.latest_checkpoint(savedir)
    if ckpt != None:
        saver.restore(sess4,ckpt)
        print('x=0.2,z=',sess4.run(z,feed_dict={X:0.2}))

以上三种方式，都实现的是同样一个功能，就是重载最后一个checkpoint，用这个checkpoint中的参数数据去计算。

XXin_YYYYYY

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
checkpoint

有时候模型特别大，训练时间特别长，如果没有设置断点，中间如果出现一些不可控因素时，那之前训练的结果就都没有了，就白白浪费了人力物力资源。所以，在模型训练一定时间后，应该为它保存断点，这个也为后面使用模型中的一些参数提供了方便。那我们以线性模型为例：import tensorflow as tfimport numpy as np# 1 生成模拟数据train_x = np.linspace...
复制链接

扫一扫

专栏目录