昇思25天学习打卡营第9天|保存与加载
前言
非常感谢华为昇思大模型平台和CSDN邀请体验昇思大模型!从今天起,笔者将以打卡的方式,将原文搬运和个人思考结合,分享25天的学习内容与成果。为了提升文章质量和阅读体验,笔者会将思考部分放在最后,供大家探索讨论。同时也欢迎各位领取算力,免费体验昇思大模型!
保存与加载
上一章节主要介绍了如何调整超参数,并进行网络模型训练。在训练网络模型的过程中,实际上我们希望保存中间和最后的结果,用于微调(fine-tune)和后续的模型推理与部署,本章节我们将介绍如何保存与加载模型。
%%capture captured_output
# 实验环境已经预装了mindspore==2.3.0rc1,如需更换mindspore版本,可更改下面mindspore的版本号
!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.3.0rc1
import numpy as np
import mindspore
from mindspore import nn
from mindspore import Tensor
def network():
model = nn.SequentialCell( #依序执行以下功能
nn.Flatten(), #输入信息展平
nn.Dense(28*28, 512), #全连接层,输入通道数为28*28,输出通道数为512
nn.ReLU(), #激活函数ReLU
nn.Dense(512, 512), #全连接层,输入通道数为512,输出通道数为512
nn.ReLU(), #激活函数ReLU
nn.Dense(512, 10)) #全连接层,输入通道数为512,输出通道数为10,对应0-9十种可能的结果
return model
保存和加载模型权重
保存模型使用save_checkpoint
接口,传入网络和指定的保存路径:
model = network() #初始化模型
mindspore.save_checkpoint(model, "model.ckpt") #保存模型至指定路径
要加载模型权重,需要先创建相同模型的实例,然后使用load_checkpoint
和load_param_into_net
方法加载参数。
model = network() #初始化模型
param_dict = mindspore.load_checkpoint("model.ckpt") #加载参数
param_not_load, _ = mindspore.load_param_into_net(model, param_dict)
print(param_not_load) #输出未加载的参数
param_not_load
是未被加载的参数列表,为空时代表所有参数均加载成功。
保存和加载MindIR
除Checkpoint外,MindSpore提供了云侧(训练)和端侧(推理)统一的中间表示(Intermediate Representation,IR)。可使用export
接口直接将模型保存为MindIR。
model = network() #初始化模型
inputs = Tensor(np.ones([1, 1, 28, 28]).astype(np.float32)) #输入信息的[B, C, H, W]为[1, 1, 28, 28]
mindspore.export(model, inputs, file_name="model", file_format="MINDIR") #将输入信息输入模型中, export接口将模型保存为MindIR
MindIR同时保存了Checkpoint和模型结构,因此需要定义输入Tensor来获取输入shape。
已有的MindIR模型可以方便地通过load
接口加载,传入nn.GraphCell
即可进行推理。
nn.GraphCell
仅支持图模式。
mindspore.set_context(mode=mindspore.GRAPH_MODE)
graph = mindspore.load("model.mindir") #加载MindIR模型
model = nn.GraphCell(graph) #推理图像
outputs = model(inputs) #输入模型,得到输出结果
print(outputs.shape)
个人任务打卡(读者请忽略)
个人理解与总结
本章节主要描述了昇思大模型模型保存与加载的主要功能,其主要分为两部分,分别是保存和加载模型权重,以及保存和加载MindIR两部分。在保存和加载模型权重中,模型经初始化和实例化后,昇思大模型可指定的路径,并加载对应的模型权重;在保存和加载MindIR部分,昇思大模型提供了云测和端侧的统一的中间表示,保障了云端和本地的模型接口统一。综上所述,昇思大模型保障了用户云端和本地体验的一致性。