深度学习模型断点调试

毛飞龙

已于 2024-05-27 21:28:50 修改

阅读量330

点赞数 4

文章标签：深度学习人工智能 debuging 断点调试

于 2024-04-26 11:11:24 首次发布

本文链接：https://blog.csdn.net/weixin_41140174/article/details/138170131

版权

IDE进行代码调试

IDE可以帮助开发者高效地进行代码调试，例如，IDE提供了设置断点的功能，可以在代码运行到特定位置时暂停，以便开发者检查变量值、内存使用情况等信息，理解代码的运行逻辑，更快地定位和修复问题，使用广泛的IDE包括IntelliJ，VS Code，Pycharm等

深度学习模型调试的问题

很多介绍IDE断点调试的材料，通常只有一个code 文件，这种比较简单。但企业中的深度学习模型通常是一个模型框架，涉及到多个python文件，有一个entry file，是模型训练的头文件（从此文件开始执行），同时，部分模型参数采用命令行传参的方式，比如在阿里云的PAI平台的模型训练命令为：

pai -name tensorflow1120
    -Dscript="project_name/resources/XX_Model.tar.gz"
    -DentryFile="XX_Model/train.py"
    -Dtables="odps://project_name/tables/table_name/ds=partion_name,
    -DuserDefinedParameters="--epoch=9  --save_flag=${save_flag} --l2_reg=0 --dropout=1.0 --deep_layers=1024,1024 --batch_size=1024 --batch_norm=0 --embedding_size=8 --learning_rate=0.0003 --train_table=odps://project_name/train_table --scaler_table=odps://project_name/scaler_table--use_vali=True --vali_table=odps://odps://project_name/valid_table_name
    ";

其中，

- XX_Model.tar.gz 为模型训练打包文件

- XX_Model/train.py为模型训练头文件（从此文件开始执行）

- DuserDefinedParameters 涉及到使用命令行进行模型传参

那么这种需要使用“命令行进行模型传参”的深度学习模型要如何调试呢？主要回答两个问题：

1. 如果需要debug的python文件不是头文件，选择哪个python文件进行断点（breakpoint）设置？

2. 命令行参数如何传递给模型调试？

选择哪个python文件进行断点（breakpoint）设置

需要调试哪个code 文件，就在那个文件上进行断点设置，比如要调试的是DeepFM.py文件，就打开这个文件，在需要设置断点处设置断点(165/171行的红点表示断点)；

但执行调试的时候，要从模型的进入文件train.py进入，方法是打开train.py，保持这个sheet active，然后再点击左上角Start Debugging调试按钮，如图：

命令行参数如何传递给模型调试？

需要设置launch.json文件。通常在初次开启debug模式的时候进行设置，如果当时没有设置，后续可以在Start Debugging 按钮右边设置按钮进行修改。

模型参数通过args列表的方式进行传递，配置如下：

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [

        {
            "name": "Python: Current File",
            "type": "python",
            "request": "launch",
            "program": "${file}",
            "console": "integratedTerminal",
            "justMyCode": true,
            "args": [
                "--epoch=1",
                "--l2_reg=0",
                "--dropout=1.0",
                "--deep_layers=1024,1024",
                "--batch_size=1024",
                "--batch_norm=0",
                "--embedding_size=8",
                "--learning_rate=0.0003",
                "--model_version=uplift_v1",
                "--use_vali=True",
                "--train_table=odps://project_name/tables/table_name/ds=partition_name",
                "--scaler_table=odps://project_name/tables/table_name/ds=partition_name",
                "--vali_table=odps://project_name/tables/table_name/ds=partition_name"
            ]
        },
    ]
}

配置好后，点击“Start debugging”按钮，则在debug运行的时候会将参数传递给模型，如图：

通过观察左边的Variables和通过WATCH 添加监控变量，可以看到断点处的变量值，并且追踪变量值的变化，来了解代码进行了什么操作，结果是否符合预期等。

参考：

如何加速你的Python调试过程？Python三种调试方法对比及调试技巧分析_哔哩哔哩_bilibili

毛飞龙

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习模型断点调试

IDE可以帮助开发者高效地进行代码调试，例如，IDE提供了设置断点的功能，可以在代码运行到特定位置时暂停，以便开发者检查变量值、内存使用情况等信息，理解代码的运行逻辑，更快地定位和修复问题。本文介绍了深度学习模型IDE debug设置方法，深度学习模型涉及到多个python文件，同时，模型参数采用命令行传参的方式，这种情况的debug方式和单个文件有所不同。
复制链接

扫一扫