如何定位报错: indexSelectLargeIndex:... Assertion `srcIndex ＜ srcSelectDimSize` fail

SmallerFL

于 2024-06-18 14:48:52 发布

阅读量1.2k

点赞数 31

分类专栏： Python相关文章标签： python transformer pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36803941/article/details/139767939

版权

Python相关专栏收录该内容

33 篇文章 0 订阅

订阅专栏

文章目录

1. 背景
2. 准备工作
- 2.1 debug工具
- 2.2 设置准备工作
3. 开启 debug

1. 背景

在使用 cuda 在 gpu 计算的过程中，出现索引超过最大长度。

indexSelectLargeIndex:... Assertion `srcIndex < srcSelectDimSize` fail

通常这种时候堆栈底部还伴随以下报错：

RuntimeError: CUDA error: device-side assert triggered

如果你明确你的输入是什么，那么这种问题不难排查。

困难的是，如果你调用了一些封装很深的库，例如模型训练库，比如 transformer 。特别是你还是用多 gpu 跑这种代码，那么这种问题排查起来尤其困难。

ps：
对于这种隐藏太深的问题，在网上（包含外网）几乎搜索不到太多的解决方法。

2. 准备工作

目前遇到这种问题，最好的解决方法只有对代码 debug。千万别害怕 debug，这是当你遇到疑难杂症时，理解代码、解决问题的最佳方法！

2.1 debug工具

当然 debug 也有方法的，掌握合适的工具事半功倍：
（1）本地代码可以用 IDE 编码的，那么直接用 IDE 的 debug 方便
（2）远程部署在服务器上的，如果本地可以通过内网 ssh 连接服务器，建议部署用 VSCode，远程连接进行 debug
（3）远程部署在服务器上的，本地没有任何办法连接服务器的，那么可以借助 python 的 pdb 库。详细用法请参考《Python内置debug库: pdb用法详解》
（4）当然，肯定有其他方法，更多的方法我就没用过了～

2.2 设置准备工作

为了可以高效的 debug，需要简单配置以下设置：
（1）将 gpu 运算替换成 cpu 运算
（2）将多线程改成单线程
（3）如果是深度学习模型训练，请调低模型参数、减少训练的数据量

下面依次解释以上操作：
（1）将 gpu 运算替换成 cpu 运算；

model.to(torch.device("cpu"))
如果你使用 transformer 库，在 TrainingArguments 中 use_cpu = True

（2）将多线程改成单线程；例如此前你使用多机多卡训练，请调整成一张卡

（3）调低模型参数、减少训练的数据量；

现在的大模型的参数量巨大，可能导入会爆内存，请调低模型的参数，例如 attention 的head数、网络隐藏层数、embedding维度、max_seq_length 等
另外，为了提高效率，训练 load 的数据可以少一些，加速 debug 效率

3. 开启 debug

由于我们并不知道是哪里的问题引起的索引超过最大长度，因此我们需要从头开始 debug，那么是不是一步一步来 debug 呢？

这里有一个加速的方法，我们采用二分法。
（1）在大致代码1/2的位置打上断点，然后放行代码，看代码是否可以运行到这个断点。
（2）如果可以，那么在后半部分的1/2再打断点，再运行；
（3）否则在前半部分的1/2再打断点。
（4）直到可以定位到是哪一行函数报错，再追踪进去重复上面的步骤

举个例子：
这是transformer的内置的train 的内部代码，明确是这里出现了问题，现在就需要找到是哪一行有问题。我们可以找一个大致的位置打上断点，然后放行 debug 代码
在这里插入图片描述
找到报错的一行代码以后，再具体根据里面的变量之间的关系具体分析。

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SmallerFL 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。