昇思MindSpore学习入门-回调机制

最新推荐文章于 2024-11-04 13:07:19 发布

谷晓光

最新推荐文章于 2024-11-04 13:07:19 发布

阅读量717

点赞数 9

文章标签：学习人工智能 python AI 昇思大模型开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/buw369521/article/details/140205464

版权

在深度学习训练过程中，为及时掌握网络模型的训练状态、实时观察网络模型各参数的变化情况和实现训练过程中用户自定义的一些操作，MindSpore提供了回调机制（Callback）来实现上述功能。

Callback回调机制一般用在网络模型训练过程Model.train中，MindSpore的Model会按照Callback列表callbacks顺序执行回调函数，用户可以通过设置不同的回调类来实现在训练过程中或者训练后执行的功能。

Callback介绍

当聊到回调Callback的时候，大部分用户都会觉得很难理解，是不是需要堆栈或者特殊的调度方式，实际上我们简单的理解回调：

假设函数A有一个参数，这个参数是个函数B，当函数A执行完以后执行函数B，那么这个过程就叫回调。

Callback是回调的意思，MindSpore中的回调函数实际上不是一个函数而是一个类，用户可以使用回调机制来观察训练过程中网络内部的状态和相关信息，或在特定时期执行特定动作。

例如监控损失函数Loss、保存模型参数ckpt、动态调整参数lr、提前终止训练任务等。下面我们继续以手写体识别模型为例，介绍常见的内置回调函数和自定义回调函数。

常用的内置回调函数

MindSpore提供Callback能力，支持用户在训练/推理的特定阶段，插入自定义的操作。

ModelCheckpoint

用于保存训练后的网络模型和参数，方便进行再推理或再训练，MindSpore提供了ModelCheckpoint接口，一般与配置保存信息接口CheckpointConfig配合使用。

LossMonitor

用于监控训练或测试过程中的损失函数值Loss变化情况，可设置per_print_times控制打印Loss值的间隔。

训练场景下，LossMonitor监控训练的Loss值；边训练边推理场景下，监控训练的Loss值和推理的Metrics值

TimeMonitor

用于监控训练或测试过程的执行时间。可设置data_size控制打印执行时间的间隔。

自定义回调机制

MindSpore不仅有功能强大的内置回调函数，当用户有自己的特殊需求时，还可以基于Callback基类自定义回调类。

用户可以基于Callback基类，根据自身的需求，实现自定义Callback。Callback基类定义如下所示：

class Callback():

"""Callback base class"""

def on_train_begin(self, run_context):

"""Called once before the network executing."""

def on_train_epoch_begin(self, run_context):

"""Called before each epoch beginning."""

def on_train_epoch_end(self, run_context):

"""Called after each epoch finished."""

def on_train_step_begin(self, run_context):

"""Called before each step beginning."""

def on_train_step_end(self, run_context):

"""Called after each step finished."""

def on_train_end(self, run_context):

"""Called once after network training."""

回调机制可以把训练过程中的重要信息记录下来，通过把一个字典类型变量RunContext.original_args()，传递给Callback对象，使得用户可以在各个自定义的Callback中获取到相关属性，执行自定义操作，也可以自定义其他变量传递给RunContext.original_args()对象。

RunContext.original_args()中的常用属性有：

epoch_num：训练的epoch的数量
batch_num：一个epoch中step的数量
cur_epoch_num：当前的epoch数
cur_step_num：当前的step数
loss_fn：损失函数
optimizer：优化器
train_network：训练的网络
train_dataset：训练的数据集
net_outputs：网络的输出结果
parallel_mode：并行模式
list_callback：所有的Callback函数

通过下面两个场景，我们可以增加对自定义Callback回调机制功能的了解。

自定义终止训练

实现在规定时间内终止训练功能。用户可以设定时间阈值，当训练时间达到这个阈值后就终止训练过程。

下面代码中，通过run_context.original_args方法可以获取到cb_params字典，字典里会包含前文描述的主要属性信息。

同时可以对字典内的值进行修改和添加，在begin函数中定义一个init_time对象传递给cb_params字典。每个数据迭代结束step_end之后会进行判断，当训练时间大于设置的时间阈值时，会向run_context传递终止训练的信号，提前终止训练，并打印当前的epoch、step、loss的值。

从上面的打印结果可以看出，当第3个epoch的第4673个step执行完时，运行时间到达了阈值并结束了训练。

自定义阈值保存模型

该回调机制实现当loss小于设定的阈值时，保存网络模型权重ckpt文件。

示例代码如下：

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

谷晓光 CSDN认证博客专家 CSDN认证企业博客

码龄8年

107: 原创

107万+: 周排名

3万+: 总排名

7万+: 访问

: 等级

2417: 积分

987: 粉丝

1344: 获赞

15: 评论

1047: 收藏

私信

关注

热门文章

分类专栏

CDA数据分析师 7篇
python 40篇
numpy 1篇
数据库 1篇

最新评论

python爬虫预备知识二-文件写入及常用方法
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
python之tkinter库的grid布局
muzi_admin: 引用「# 取消按钮在网格内靠右」这里的W根据上边的描述，应该靠左吧。
python第三节：Str字符串类型（4）
CSDN-Ada助手: 恭喜您写了第19篇博客，标题为“python第三节：Str字符串类型（4）”！您的持续创作令人钦佩，对于Python的学习和分享精益求精，让读者受益匪浅。希望您能继续保持创作的热情，不断提升自己的写作技巧和内容深度。或许可以考虑结合实际案例或者深入探讨Python在特定领域的应用，为读者带来更多价值。期待您的下一篇精彩文章！
python第三节：Str字符串类型（4）
JJJ69: 不错，学到了很多，
第二节变量、注释、数据类型
CSDN-Ada助手: 恭喜您写完了第15篇博客！标题“第二节变量、注释、数据类型”听起来非常有趣。您的坚持和创作热情真的非常值得赞赏。在这篇博客中，您提到了变量、注释和数据类型，这些对于初学者来说是非常重要的基础知识。我希望您能够继续发掘这个主题，深入讲解每个概念的具体用途和注意事项。此外，您还可以考虑分享一些实际应用的案例，帮助读者更好地理解这些概念。期待您的下一篇博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。