深度学习模型断点调试

IDE进行代码调试

IDE可以帮助开发者高效地进行代码调试,例如,IDE提供了设置断点的功能,可以在代码运行到特定位置时暂停,以便开发者检查变量值、内存使用情况等信息,理解代码的运行逻辑,更快地定位和修复问题,使用广泛的IDE包括IntelliJ,VS Code,Pycharm等

深度学习模型调试的问题

很多介绍IDE断点调试的材料,通常只有一个code 文件,这种比较简单。但企业中的深度学习模型通常是一个模型框架,涉及到多个python文件,有一个entry file,是模型训练的头文件(从此文件开始执行),同时,部分模型参数采用命令行传参的方式,比如在阿里云的PAI平台的模型训练命令为:

pai -name tensorflow1120
    -Dscript="project_name/resources/XX_Model.tar.gz"
    -DentryFile="XX_Model/train.py"
    -Dtables="odps://project_name/tables/table_name/ds=partion_name,
    -DuserDefinedParameters="--epoch=9  --save_flag=${save_flag} --l2_reg=0 --dropout=1.0 --deep_layers=1024,1024 --batch_size=1024 --batch_norm=0 --embedding_size=8 --learning_rate=0.0003 --train_table=odps://project_name/train_table --scaler_table=odps://project_name/scaler_table--use_vali=True --vali_table=odps://odps://project_name/valid_table_name
    ";

其中,

- XX_Model.tar.gz 为模型训练打包文件

- XX_Model/train.py为模型训练头文件(从此文件开始执行)

- DuserDefinedParameters 涉及到使用命令行进行模型传参

那么这种需要使用“命令行进行模型传参”的深度学习模型要如何调试呢?主要回答两个问题:

1. 如果需要debug的python文件不是头文件,选择哪个python文件进行断点(breakpoint)设置?

2. 命令行参数如何传递给模型调试?

选择哪个python文件进行断点(breakpoint)设置

需要调试哪个code 文件,就在那个文件上进行断点设置,比如要调试的是DeepFM.py文件,就打开这个文件,在需要设置断点处设置断点(165/171行的红点表示断点);

但执行调试的时候,要从模型的进入文件train.py进入,方法是打开train.py,保持这个sheet active,然后再点击左上角Start Debugging调试按钮,如图:

命令行参数如何传递给模型调试?

需要设置launch.json文件。通常在初次开启debug模式的时候进行设置,如果当时没有设置,后续可以在Start Debugging 按钮右边设置按钮进行修改。

模型参数通过args列表的方式进行传递,配置如下:

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [

        {
            "name": "Python: Current File",
            "type": "python",
            "request": "launch",
            "program": "${file}",
            "console": "integratedTerminal",
            "justMyCode": true,
            "args": [
                "--epoch=1",
                "--l2_reg=0",
                "--dropout=1.0",
                "--deep_layers=1024,1024",
                "--batch_size=1024",
                "--batch_norm=0",
                "--embedding_size=8",
                "--learning_rate=0.0003",
                "--model_version=uplift_v1",
                "--use_vali=True",
                "--train_table=odps://project_name/tables/table_name/ds=partition_name",
                "--scaler_table=odps://project_name/tables/table_name/ds=partition_name",
                "--vali_table=odps://project_name/tables/table_name/ds=partition_name"
            ]
        },
    ]
}

配置好后,点击“Start debugging”按钮,则在debug运行的时候会将参数传递给模型,如图:

通过观察左边的Variables和通过WATCH 添加监控变量,可以看到断点处的变量值,并且追踪变量值的变化,来了解代码进行了什么操作,结果是否符合预期等。

参考:

如何加速你的Python调试过程?Python三种调试方法对比及调试技巧分析_哔哩哔哩_bilibili

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值