Google colab 上使用TPU进行多核训练时该怎么调试（Pytorch）

最新推荐文章于 2025-02-25 21:03:41 发布

讨饭

最新推荐文章于 2025-02-25 21:03:41 发布

阅读量1.3k

点赞数 1

分类专栏： Pytorch 文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/qq_40418553/article/details/126357791

版权

Pytorch 专栏收录该内容

2 篇文章

订阅专栏

本文探讨了在Google Colab中使用云TPU进行多核训练时的调试难题，包括文件管理和多进程同步问题。作者分享了如何通过设置单核调试、正确处理loss和数据运算来克服挑战，并提醒了ipdb调试的注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

使用Google colab并不像使用pycharm那么容易调试，特别是文件内容比较多且杂的时候，调试起来极为不方便。而使用Google云TPU的八个核进行训练更是使得调试工作难上加难，到出错的地方要么直接退出，要么就卡住不动，错误信息都不给一个，让人很是火大。

关于调试

我并没有直接在colab上运行代码，而是把python文件上传到Google云盘上，然后再在colab上挂载云盘，最后运行python文件。如：

!python3 test.py

所以我的调试代码是写在python文件中的。

# 导入包
from IPython.core.debugger import set_trace

for i in range(10):
    set_trace()  # 设置断点
    i += 1

运行python文件，程序会在断点处停下。输入如下命令可以进行调试：

按键 (可以全名，也可以缩写)	功能
ENTER	重复上次命令
c (cont) (continue)	继续程序
l (list)	可以列出当前将要运行的代码块
s (step)	步入
n (next)	步过
r (return)	运行到程序结束
!<python 命令>	执行命令
h (help)	帮助
h + 指令	显示指令帮助内容
a (args)	打印当前函数的参数
j + 行数	跳转到指定的行数
p (print)	打印变量
q (quit)	退出调试

使用云TPU怎么调试

问题：使用多核训练就像使用了多线程一样，每个进程干着自己的事情，你就是一个外人，根本无法插入进去。

使用教程：（需要科学上网）

PyTorch on Cloud TPUs: Single Core Training AlexNet on Fashion MNIST

PyTorch on Cloud TPUs: MultiCore Training AlexNet on Fashion MNIST

解决方法：其实解决的办法很简单，就是使用单核进行调试，之后再改为多核运行。断点插到map_fn()函数中。

# 原来的
# xmp.spawn(map_fn, args=(flags,), nprocs=8, start_method='fork')

xmp.spawn(map_fn, args=(flags,), nprocs=1, start_method='fork')

在运行过程中出现的问题

1、运行loss.item()的时候出现阻塞，这时程序不会报错，而是会一直堵着。

原因：loss的类型为

tensor(16.1250, device='xla:1', dtype=torch.bfloat16, grad_fn=<DivBackward0>)

所以应改为loss.cpu().item()

2、主进程单独执行程序时会堵塞，因为不能在不同的进程上执行不同的计算，而在cpu上进行运算是可以的。

# Don't perform different computations on different processes!
# Warning: uncommenting the below and running this cell will likely hang your Colab!
def simple_map_fn(index, flags):
  torch.manual_seed(1234)
  device = xm.xla_device()  

  if xm.is_master_ordinal():
    t = torch.randn((2, 2), device=device)  # Divergent Cloud TPU computation!


xmp.spawn(simple_map_fn, args=(flags,), nprocs=8, start_method='fork')

解决办法：使用do_on_ordinals()函数，这个函数会把data转换为cpu数据进行运算。