TensorFlow模型的保存与加载（一）——checkpoint模式【源码】

最新推荐文章于 2025-03-19 19:38:07 发布

魔法攻城狮MRL

最新推荐文章于 2025-03-19 19:38:07 发布

阅读量9.6k

点赞数 22

分类专栏： Python程序设计机器学习之深度学习文章标签： tensorflow python 深度学习机器学习数据持久化

本文链接：https://blog.csdn.net/qq_41959920/article/details/115730703

版权

Python程序设计同时被 2 个专栏收录

28 篇文章

订阅专栏

机器学习之深度学习

21 篇文章

订阅专栏

如果这篇文章对您有帮助，欢迎点赞支持！

前言

1、TF模型保存方法

网络模型的保存和重载操作是学习和训练AI模型的必备技能之一，也是进一步学习迁移学习知识的基础。

Tensorflow的模型保存加载有不同格式，使用方法也不一样。

目前来看，Tensorflow的模型保存方式按照生成的主要文件的格式基本可以分为三种：（1）checkpoint模式；（2） pb模式；（3）saved_model模式。

2、checkpoint模式

checkpoint模式是最常见的一种保存方式，其特点是将网络结构和变量数据分开保存，该方式保存的模型基本只能使用TensorFlow来重载，保存好的模型的文件结构如下：

|--checkpoint_dir
|    |--checkpoint
|    |--test-model-550.meta
|    |--test-model-550.data-00000-of-00001
|    |--test-model-550.index

checkpoint_dir就是保存时我们指定的路径，该路径下会生成4个文件（文件中的550是指该模型训练了550个step）。

其中.meta文件（本质是pb格式文件）用来保存模型的网络结构；.data和.index文件用来保存模型中的各种变量。

checkpoint文件里面记录了最新的checkpoint文件以及其它checkpoint文件列表，在inference时可以通过修改这个文件，指定重载使用哪个model。

3、适合保存模型的时机

尽可能多地保存模型能帮助我们不错过效果最好的模型，但是实际操作也要考虑内存大小和运行效率。

工程师的通用做法是每训练多少步后就在验证集上计算一次准确率，如果本次结果比上次好则保存新的模型。

最常见的做法是直接每训练多少步就直接保存一次模型，实际上TensorFlow的API也提供了在模型文件名提供添加训练step后缀的方式。

一、保存模型

1、创建Saver对象

TensorFlow提供了tf.train.Saver()对象来保存和还原一个机器学习模型。其常见用法如下：

saver = tf.train.Saver(max_to_keep=3)

在创建这个Saver对象的时候，经常会用到max_to_keep 参数来设置保存模型的个数，默认max_to_keep=5，即保存最新的5个模型。

max_to_keep是指本次训练在checkpoint_dir这个路径下最多保存多少个模型文件，新模型会覆盖旧模型以节省空间。

如果想每训练一代（epoch)就想保存一次模型，则可以将 max_to_keep设置为None或者0，但是这样做除了多占用硬盘，并没有实际多大的用处，不推荐设置。

2、检查保存路径

保存模型必然需要先检查下保存路径是否存在，一段可以检查Python路径的代码如下：

# 检查模型保存路径
ckpt_file_path = "./model/"
path = os.path.abspath(ckpt_file_path)
if os.path.exists(path) is False:
    os.makedirs(path)

注意：保存路径中及其所在的绝对路径中最好不要有中文路径，容易出错。

3、生成模型文件

TensorFlow提供了如下API来保存一个计算图模型：

sess = tf.Session() # 创建tf会话
tf.train.Saver().save(sess, ckpt_file_path,global_step=step,write_meta_graph=True)

其中第1个参数是创建的tf会话，tf会话中加载有计算图graph对象，可以通过此获取当前要保存的计算图模型；

第2个参数是模型保存的文件路径及其文件名；

第3个参数是训练的次数，该API会自动将训练的次数作为后缀加入到模型名字中；

第4个参数是是否生成.meta文件，该文件包含了模型的网络结构。

该API正常执行后程序会生成并保存如下4类文件:

注意，其中checkpoint是文本文件，在训练过程中多次保存模型时只要保存路径不变，该文件将只有一份。其内容大致如下：

二、加载模型

1、加载模型结构

加载模型结构有两种方式：1. 加载.meta文件中的结构， 2. 手动重新写一遍原样结构。

第2种方式适合在有源码的情况下进行生成，第1种方式则是在没有源码的情况下生成的，其主要是加载.meta文件

saver = tf.train.import_meta_graph('./model/dog-cat.ckpt-9975.meta')# 加载模型结构

2、加载模型参数

加载模型参数就是加载模型的变量，主要方法是用saver.restore()方法恢复变量：

# 加载网络模型
sess = tf.Session() # 创建tf会话
# saver.restore(sess, './model/dog-cat.ckpt-9975')# 指定特定模型
saver.restore(sess, tf.train.latest_checkpoint('./model/'))# 使用最新模型
sess.run(tf.global_variables_initializer()) # 重新初始化模型变量

该API中第1个参数是创建的tf会话，加载的模型将会保存到该会话中；

第2个参数是模型保存的路径，不需要提供模型的名字。

3、获取Tensor变量

在上述获得模型结构及其参数后，就可以使用该模型了，现在模型已经被加载到sess中，我们可以获取此时对应的计算图，通过图获取其中的Tensor变量，注意这里获取的Tensor变量名必须在保存时有定义。

graph = tf.get_default_graph() # 获取计算图
self.x = graph.get_tensor_by_name("x:0")
self.y_true = graph.get_tensor_by_name("y_true:0")
self.y_pred = graph.get_tensor_by_name("y_pred:0")

其中x是节点名称，x:0是表述节点的输出的第一个张量

三、代码封装

在上述内容我们只是介绍了方法步骤，而且路径的输入上也存在一些技巧，所以我们实际使用时要将上述步骤封装起来，下面我们将上述方法封装起来并给出测试代码和运行效果：

1、保存网络模型

为了让读者将精力集中到模型的保存和加载上，这里我们使用一个非常简单的计算图结构x*y+b：

# 定义计算图结构 x*y+b
x = tf.placeholder(tf.int32, name='x_input')
y = tf.placeholder(tf.int32, name='y_input')
b = tf.Variable(1, name='b')
xy = tf.multiply(x, y)
output = tf.add(xy, b, name='output')

运行上述计算图，相关测试代码如下：

# 输出计算图结果
sess = tf.Session()
sess.run(tf.global_variables_initializer())
y_pred = sess.run(output, {x: 10, y: 3})
print(y_pred) # 输出31

最后输出结果是10*3+1=31，和我们预想的一致。

接下来我们使用如下方法保存该计算图模型：

# 使用ckpt保存计算图
save_ckpt_model(sess,'./model/',1)

save_ckpt_model（）是我们封装的方法，其相关代码如下：

def save_ckpt_model(sess, save_path,train_step=None):
    saver = tf.train.Saver(max_to_keep=5)
    # 检查路径是否存在
    path = os.path.abspath(save_path)  # 获取绝对路径
    if os.path.exists(path) is False:
        os.makedirs(path)
        print("成功创建模型保存新路径：{}".format(path))
    saver.save(sess, save_path + 'model.ckpt', global_step=train_step, write_meta_graph=True)  # 保存为ckpt模型
    print("成功使用CKPT模式保存模型到路径：{}".format(path))

成功运行后，会生成如下文件：

注意，运行代码中，代码编辑器可能不会马上更新文件目录，建议打开目录查看下是否生成。

2、加载网络模型

现在我们要将上述保存的计算图结构x*y+b从文件中重载出来，下面直接给出加载代码：

# 加载计算图结构 x*y+b
sess = tf.Session()
load_ckpt_model(sess, './model/')
# 获取计算图节点
graph = tf.get_default_graph()  # 获取计算图
x = graph.get_tensor_by_name("x_input:0")
y = graph.get_tensor_by_name("y_input:0")
output= graph.get_tensor_by_name("output:0")
# 运行计算图计算结果
y_pred = sess.run(output, {x: 10, y: 3})
print(y_pred) # 输出 31

其中加载方法load_ckpt_model()代码如下：

def load_ckpt_model(sess, save_path):
    checkpoint = tf.train.get_checkpoint_state(save_path)  # 从checkpoint文件中读取checkpoint对象
    input_checkpoint = checkpoint.model_checkpoint_path
    saver = tf.train.import_meta_graph(input_checkpoint + '.meta', clear_devices=True)  # 加载模型结构
    saver.restore(sess, input_checkpoint)  # 使用最新模型
    sess.run(tf.global_variables_initializer())# 初始化所有变量

最后，如果这篇文章对您有帮助，欢迎点赞支持，感谢您的善意！