pycharm连接云端服务器后实现远程debug调试

目录

1. 情况说明

2.具体实现措施,举例说明

(1) 准备工作

(2)具体实施

3. debug 调试


1. 情况说明

我的情况是通过pycharm连接云端服务器,然后实现代码的pytorch分布式训练(DDP),虽然跑训练代码直接在云端的终端下就可以执行,但是我想看一下训练过程中的细节,这就需要在pycharm上debug来更清晰的查看。

注: 这是通过ssh远程连接的云端服务器。怎么连接的大家应该都大同小异。

2.具体实现措施,举例说明

(1) 准备工作

首先,直接在云端服务器的终端下执行训练代码如下所示

所需的环境变量设置:

(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# export PYTHONPATH=../../
(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# CUDA_VISIBLE_DEVICES=0,1,2

执行训练:

root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# python -m torch.distributed.launch     
--nproc_per_node=3     
../../tools/train.py 
--cfg config.yaml

可以看到,这里有很多传入的参数,并且涉及到pytorch的分布式训练,需要在launch中启动,如果直接在本地的pycharm上运行 train.py 是行不通的。其一是因为这些传入的参数以及环境变量需要设置,其二pytorch的分布式训练是在launch中启动的。

所以,以上的环境变量和传入的参数就相当于需要准备的东西,

(2)具体实施

所有的设置都是在pycharm 的 Run下面的Edit configrations中实现的,如下图所示:

 首先,环境变量的设置需要在 训练代码文件中设置,比如我的训练代码文件名为 train.py,那么环境变量(对比(1)准备工作)的都在train中添加,如下面所示,注意如果需要添加导入模块路径的环境变量(如(1)中 PYTHONPATH),则路径应为云端服务器中该模块的路径,而不是本地的,最好写绝对路径。

 接下来需要设置传入的参数,由于我这个情况是 分布式训练,从launch启动,所以需要找到launch.py文件,在这个文件中设置传入的参数

 它的路径在 torch\distributed\launch.py,如果找不到,可以直接pycharm右上角搜索

 注意这里的launch.py此时是本地C盘下的,需要做一下映射关系,把它map到对应云端服务器的lauch.py文件。这样需要先找到云端服务器环境下的launch.py文件,它在torch/distirbuted 文件夹下,可以在云端服务器利用下面语句终端里先搜索

root@aaa:~/anaconda3/envs/siamban1# find / -name launch.py
/root/anaconda3/envs/siamban/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py
/root/anaconda3/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/anaconda-navigator-1.8.7-py36_0/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/pkgs/navigator-updater-0.2.1-py36_0/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/pkgs/setuptools-39.1.0-py36_0/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/setuptools-62.3.3-py37h89c1867_0/lib/python3.7/site-packages/setuptools/launch.py

然后 ctrl+c 退出,选择你对应的环境中的launch.py文件(选择torch/distirbuted文件夹下的),比如我的是

/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py

然后回到pycharm,点击 Run 中的 Edit Configration,选中launch文件,在Path mapping那一栏填写对应的路径

 其中 Local path填本地的launch.py路径,Remote path 填上述寻找到的云端的launch.py路径

 做完映射关系后,在 Parameters填入传入的参数,如下所示

 具体传入的参数就是之前那个执行代码需要的(见(1)中),除了

python -m torch.distributed.launch

外,其它参数都需要添加进来, 设计到路径的最好都用绝对路径代替,避免出错。

3. debug 调试

上面的设置完成后,直接运行launch.py 即可,而不是去运行train.py,不过这没关系,把断点打在train.py或者训练过程中的任何地方依然没什么问题。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

匿名的魔术师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值