目前MPI程序的并行调试工具主要有TotalView和Linaro Forge(原DDT),这两款都为商业软件而且收费高昂(根据较早前的数据,TotalView基础版需要700美元),大部分的个人开发者和小公司都用不起。于是,大部分人转而使用串行调试工具如ssh+gdb attach或者xterm+gdb,但因为它们串行调试的本质在并行程序的环境中存在调试效率不高的问题。
mpigdb程序旨在解决这些问题。它对现有的gdb做了一些封装(但不直接修改gdb源码),使用Rust编写,代码采用BSD协议开源。利用gdb10.1中引入的多进程支持,实现一个gdb连接到多个gdbserver,并通过gdb的python接口新增自定义gdb命令,如mpib命令为多进程breakpoint,mpic命令是多进程continue,允许用户像操作多线程一样操作多进程调试。具体的实现参考下图:
运行效果
根据作者的测试,在不对程序造成较大的性能损失影响的前提下,最多可以同时调试128个进程。理论上可以支持更多的进程,但需要承受显著的性能损失。
项目地址
参考论文
MPIGDB: A Flexible Debugging Infrastructure for MPI Programs