IDE进行代码调试
IDE可以帮助开发者高效地进行代码调试,例如,IDE提供了设置断点的功能,可以在代码运行到特定位置时暂停,以便开发者检查变量值、内存使用情况等信息,理解代码的运行逻辑,更快地定位和修复问题,使用广泛的IDE包括IntelliJ,VS Code,Pycharm等
深度学习模型调试的问题
很多介绍IDE断点调试的材料,通常只有一个code 文件,这种比较简单。但企业中的深度学习模型通常是一个模型框架,涉及到多个python文件,有一个entry file,是模型训练的头文件(从此文件开始执行),同时,部分模型参数采用命令行传参的方式,比如在阿里云的PAI平台的模型训练命令为:
pai -name tensorflow1120
-Dscript="project_name/resources/XX_Model.tar.gz"
-DentryFile="XX_Model/train.py"
-Dtables="odps://project_name/tables/table_name/ds=partion_name,
-DuserDefinedParameters="--epoch=9 --save_flag=${save_flag} --l2_reg=0 --dropout=1.0 --deep_layers=1024,1024 --batch_size=1024 --batch_norm=0 --embedding_size=8 --learning_rate=0.0003 --train_table=odps://project_name/train_table --scaler_table=odps://project_name/scaler_table--use_vali=True --vali_table=odps://odps://project_name/valid_table_name
";
其中,
- XX_Model.tar.gz 为模型训练打包文件
- XX_Model/train.py为模型训练头文件(从此文件开始执行)
- DuserDefinedParameters 涉及到使用命令行进行模型传参
那么这种需要使用“命令行进行模型传参”的深度学习模型要如何调试呢?主要回答两个问题:
1. 如果需要debug的python文件不是头文件,选择哪个python文件进行断点(breakpoint)设置?
2. 命令行参数如何传递给模型调试?
选择哪个python文件进行断点(breakpoint)设置
需要调试哪个code 文件,就在那个文件上进行断点设置,比如要调试的是DeepFM.py文件,就打开这个文件,在需要设置断点处设置断点(165/171行的红点表示断点);
但执行调试的时候,要从模型的进入文件train.py进入,方法是打开train.py,保持这个sheet active,然后再点击左上角Start Debugging调试按钮,如图:
命令行参数如何传递给模型调试?
需要设置launch.json文件。通常在初次开启debug模式的时候进行设置,如果当时没有设置,后续可以在Start Debugging 按钮右边设置按钮进行修改。
模型参数通过args列表的方式进行传递,配置如下:
{
// Use IntelliSense to learn about possible attributes.
// Hover to view descriptions of existing attributes.
// For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
"version": "0.2.0",
"configurations": [
{
"name": "Python: Current File",
"type": "python",
"request": "launch",
"program": "${file}",
"console": "integratedTerminal",
"justMyCode": true,
"args": [
"--epoch=1",
"--l2_reg=0",
"--dropout=1.0",
"--deep_layers=1024,1024",
"--batch_size=1024",
"--batch_norm=0",
"--embedding_size=8",
"--learning_rate=0.0003",
"--model_version=uplift_v1",
"--use_vali=True",
"--train_table=odps://project_name/tables/table_name/ds=partition_name",
"--scaler_table=odps://project_name/tables/table_name/ds=partition_name",
"--vali_table=odps://project_name/tables/table_name/ds=partition_name"
]
},
]
}
配置好后,点击“Start debugging”按钮,则在debug运行的时候会将参数传递给模型,如图:
通过观察左边的Variables和通过WATCH 添加监控变量,可以看到断点处的变量值,并且追踪变量值的变化,来了解代码进行了什么操作,结果是否符合预期等。
参考: