如何调试单个cpp_PyTorch Internals 1：源代码调试方法

最新推荐文章于 2024-03-30 20:54:32 发布

绝代小李

最新推荐文章于 2024-03-30 20:54:32 发布

阅读量270

点赞数

文章标签：如何调试单个cpp

本文链接：https://blog.csdn.net/weixin_29035147/article/details/112583411

版权

最近由于疫情的原因宅在家里，刚好有时间看看PyTorch的内部实现。计划这将是一个系列的文章，用来对阅读过程进行记录。这是这个系列的第一篇文章，将介绍如何对PyTorch的源代码进行调试。

相比于TensorFlow，PyTorch的前端python接口设计更加简洁合理，非常适合研究人员快速对新的idea进行实验，同时最近的几个版本也在不断改进其c++后端，使其也能将研究人员训练好的模型部署到实际的工业环境中。一般在做实验时，使用python前端提供的接口就可以完成绝大部分的需求，但是如果能够对PyTorch内部的实现有个大概的认识则可以更好的帮助我们了解库的使用。

一般在阅读大型工程的源代码时，可以通过在关键代码处打断点的方式帮助我们更好的理解代码内部函数间的调用从而理解框架的整体结构。

PyTorch的代码由python前端和c++计算后端构成，对于python部分的代码的调试比较简单，直接使用pdb即可实现。而c++部分代码的调试则相对比较麻烦，需要在c++端捕获python端的运行状态。本文采用了gdb的方式实现c++部分代码的调试。为此，首先需要通过从源码编译的方式安装PyTorch。源码编译安装可以参考官方提供的教程https://github.com/pytorch/pytorch#from-source和https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md，本文采用的是Ubuntu18.04系统，PyTorch源代码的版本为1.3.0。具体的步骤如下：

1. 新建一个纯净的conda环境

2. 安装必要的库

conda install numpy ninja pyyaml mkl mkl-include setuptools cmake cffi typing

3. 下载源代码

git clone --recursive https://github.com/pytorch/pytorch 
cd pytorch 
# if you are updating an existing checkout 
git submodule sync 
git submodule update --init --recursive

4. 在PyTorch代码根目录下进行编译

export CMAKE_PREFIX_PATH=${CONDA_PREFIX:-"$(dirname $(which conda))/../"} 
DEBUG=1 USE_DISTRIBUTED=0 USE_MKLDNN=0 USE_CUDA=0 BUILD_TEST=0 USE_FBGEMM=0 USE_NNPACK=0 USE_QNNPACK=0 python setup.py develop

正常情况下应该在半个小时左右就可以完成编译，如果编译过程中出现错误有可能是你的电脑内存不够，可以考虑通过挂载swap的方式增大虚拟内存。

按照debug模式完成编译后，便可以通过加断点的方式进行调试。调试的思路如下：首先运行python代码，获取当前进程的id号，然后采用gdb对该进程进行捕获，进一步使用gdb在c++层面对代码进行调试。

本文将采用vscode进行调试的工作，我们首先用vscode打开源代码的根目录，然后点击左侧的debug按钮，首次打开时会让我们设置launch.json文件对gdb调试的相关参数进行设置。其中"program"指向我们使用的python文件的路径。

完成设置后，我们便可以正式开始对PyTorch代码进行调试了。

为了方便讲解，本文将以以下的卷积代码为例：

import torch 
inp = torch.rand(1,3,224,224) 
m=torch.nn.Conv2d(3,64,3) 
out=m(inp)

首先在vscode中启动上述代码，并在进行具体的卷积计算的代码`out=m(inp)`处打上断点，使程序暂时停在这个地方。

然后用vscode中在debug模式下运行pytorch代码，在启动gdb的时候会要求我们输入需要捕获的进程的id，我们也可以直接输入运行的python程序的文件名，vscode会自动帮我们补充对应的进程的id。

点击确认后系统可能会要求获取root权限，输入y即可。

由于上述的python代码在执行过程中最先调用的c++代码为`static PyObject * THPVariable_conv2d(PyObject* self_, PyObject* args, PyObject* kwargs)`，因此可以在该函数处加上断点，当断点成功加载后，可以看到加的断点已经变红，表示断点已成功被绑定到当前的代码中，同时出现了类似下图的log信息。

此时我们便可以继续执行上述的python代码，点击运行后c++侧的代码便会停在对应的断点处。也就是说，PyTorch的执行已经从python层面进入了c++层面，利用gdb我们便可以继续深入调试并理解PyTorch的代码了。

关于conv2d函数在c++层面的具体实现，我们将在下一篇文章中进行介绍，欢迎关注。

绝代小李

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何调试单个cpp_PyTorch Internals 1：源代码调试方法

最近由于疫情的原因宅在家里，刚好有时间看看PyTorch的内部实现。计划这将是一个系列的文章，用来对阅读过程进行记录。这是这个系列的第一篇文章，将介绍如何对PyTorch的源代码进行调试。相比于TensorFlow，PyTorch的前端python接口设计更加简洁合理，非常适合研究人员快速对新的idea进行实验，同时最近的几个版本也在不断改进其c++后端，使其也能将研究人员训练好的模型部署到实际...
复制链接

扫一扫