MindSpore调试器笔记分享

最新推荐文章于 2023-12-17 19:43:07 发布

skytier

最新推荐文章于 2023-12-17 19:43:07 发布

阅读量382

点赞数

文章标签： python 人工智能

原文链接：https://bbs.huaweicloud.com/forum/thread-105576-1-1.html

版权

在图模式下，用户难以从Python层获取到计算图中间节点的结果。MindSpore调试器是为图模式训练提供的调试工具，可以用来查看并分析计算图节点的中间结果。

使用MindSpore调试器，可以：

（1）在MindInsight调试器界面结合计算图，查看图节点的输出结果；

（2）设置监测点，监测训练异常情况（比如检查张量溢出），在异常发生时追踪错误原因；

（3）查看权重等参数的变化情况。

•设置监测点，监测训练异常情况（比如检查张量溢出），在异常发生时追踪错误原因；

•查看权重等参数的变化情况。

输入数据常见问题：
•数据缺失值过多 •每个类别中的样本数目不均衡 •数据中存在异常值 •数据标签错误
•训练样本不足 •未对数据进行标准化，输入模型的数据不在正确的范围内 •finetune和pretrain的数据处理方式不同
•训练阶段和推理阶段的数据处理方式不同 •数据处理参数不正确等。
MindInsight辅助检查：训练列表->训练看板->数据抽样

•loss收敛慢

回顾代码、模型结构、输入数据和loss曲线，
•检查超参是否有不合理的值
•检查模型结构是否实现正确
•检查输入数据是否正确
•检查loss曲线的收敛结果和收敛趋势是否存在异常
尝试使用“溯源分析”和调参器优化超参
•mindoptimizer --config ./config.yaml --iter 10
尝试模型解释
尝试优化模型算法

场景支持
•调试器暂不支持分布式训练场景。
•调试器暂不支持推断场景。
•调试器暂不支持单机多卡/集群场景。
•调试器暂不支持连接多个训练进程。
•调试器暂不支持CPU场景。
性能影响
•使用调试器时，会对训练性能产生一定影响。
•设置的监测点数目过多时，可能会出现系统内存不足（Out-of-Memory）的异常。
GPU场景
•在GPU场景下，只有满足条件的参数节点可以与自身的上一轮次结果作对比：使用下一个节点执行过的节点、使用运行到该节点时选中的节点、作为监测点输入的参数节点。其他情况均无法使用上一轮次对比功能。
•由于GPU上一个轮次是一个子图（而非完整的图），GPU上多图做重新检查时，只能重新检查当前的子图。
重新检查只检查当前有张量值的监测点。
检查计算过程溢出需要用户开启异步Dump的全部溢出检测功能，开启方式请参照异步Dump功能介绍
调试器展示的图是优化后的最终执行图。调用的算子可能已经与其它算子融合，或者在优化后改变了名称。

参考