RuntimeError: CUDA error: device-side assert triggered

授人以鱼不如授人以渔

解决步骤

记录下解决步骤…cuda报错真要人命

首先根据终端的提示
在这里插入图片描述
他说让你加这个来定位具体的python代码错哪了,所以咱们就加。

我这里启动命令是:

accelerate launch --config_file "utils/acc_configs/accelerate_config_${ARNOLD_ID}.yaml" llava/train/train_mem.py

加上就是:

CCL_P2P_DISABLE=1 TORCH_USE_CUDA_DSA=1 CUDA_LAUNCH_BLOCKING=1 accelerate launch --config_file "utils/acc_configs/accelerate_config_${ARNOLD_ID}.yaml" llava/train/train_mem.py

你如果是:

python3 xxx.py
就改成
CCL_P2P_DISABLE=1 TORCH_USE_CUDA_DSA=1 CUDA_LAUNCH_BLOCKING=1 python3 xxx.py

加上了之后,终端打印的东西巨巨巨长,不好定位报错代码,所以再加定向输出到文件内!

本来的运行命令:
bash scripts/v1_5/finetune.sh
改成:
bash scripts/v1_5/finetune.sh > test.log 2>&1

然后把test.log用记事本打开:
在这里插入图片描述
经过一行行的过目,发现在我的代码里是用这个embed_token报错了!所以非常好办!
先查这个embedding层的长度:
直接print模型就可以看了:(print(model))
在这里插入图片描述
发现我的是最大支持输入为64001(注意下标从0开始),所以要判断我们输入的tensor的范围是不是在0-64001!
在这里插入图片描述
直接在报错的代码上一行加上一行写死的代码,判断输入的范围是否有异常!!!验证猜想。
在这里插入图片描述
果然被我抓到了,传了个-201进去,人家cuda怎么能不报错呢???还不是你自己写的bug…
具体fix这里不再展开了,我这写了点小bug导致的,还有什么原因呢,比如你加了speical token之后没调用model.resize_token_embeddings(len(tokenizer))重置embedding层的长度也会。

解决办法

  • 如果是加了speical token,之后没调用model.resize_token_embeddings(len(tokenizer))重置embedding层的长度就会数组越界。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只会git clone的程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值