Segmentation fault (core dumped)——pytorch

Segmentation fault (core dumped)——pytorch

最近在Linux上跑一个行人重识别的baseline,然后碰上了折腾我两天的bug:Segmentation fault (core dumped)。

下面来简单说一下我调试的艰难过程……

第一阶段:盲找错误点
程序训练着训练着就嘎一下停了,然后我就进行了搜索,一些人说core dumped的原因可能是python的一些库有问题,需要更新,然后要一个一个import库……
因为我的代码太长需要import的库太多了,我觉得这个方法太费时,而且没有目的性,纯属碰运气,这个方法pass……

第二阶段:gdb调试
gdb调试是我这次debug的意外收获了,一直认为深度学习的debug太费劲,没想到还有gdb这种高深的debug方式。
下面简单说一下gdb简单的过程:
①:gdb python3
②:r /data2/……/source_train.py
(这是我运行的代码)
③:where
然后大概出现这样的图:
bug图
但是可能我还是不太看得懂gdb这个信息,我只能确认是numpy引起的寻址错误。(这个现在我解决bug后翻回来看,确实是numpy的问题)

第三阶段:经典土办法——print调试
因为报错的地方可以知道大致是哪里,所以我每句话都用一个print(‘0’)、print(‘1’)……来手动设置断点,最终确定是下面这个函数中的dist.addmm()是致使core dumped的原因。
改之前
一开始我以为torch.addmm_()这个函数计算量太大了,于是我想了想打算写一段函数来代替torch.addmm_()这个函数的功能。但是发现依旧core dumped,并且发现了主要原因是输出的矩阵太大,导致矩阵相乘计算量太大,最终core dumped。

然后我就想可能是tensor的运算原因,后来想到了numpy的矩阵运算,将tensor转换为numpy进行矩阵相乘,但是发现这个想法根本不对,因为numpy是在cpu下进行的。

划重点了!

就是那么的巧,这时候突然想到tensor是分cpu跟gpu的!这就是问题根源所在,原来程序生成的tensor占CPU RAM的,也就是说CPU Tensor导致在tensor相乘运算时出现core dumped。于是我就将tensor的生成源头改成gpu版本。
这里要说一下numpy不能读取CUDA tensor 需要将它转化为 CPU tensor,所以要将涉及到的X = X.numpy()改成X = X.cpu().numpy()。
然后将cpu tensor转变为gpu tensor:
改之后
这样core dumped就解决拉!

(仅供参考)

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Linux segmentation fault core dumped是一个常见的错误提示,它通常意味着程序在运行时出现了严重的问题,导致操作系统无法继续执行进程并产生了core dump文件。core dump文件是系统在发生异常时自动生成的文件,它包含了发生异常时的内存状态,可以帮助开发者进行问题排查和调试。 Segmentation fault通常是由于程序访问了不属于它的内存区域所导致的。这可能是由于程序中的指针错误、数组越界访问、非法内存访问等原因引起的。当程序发生segmentation fault时,操作系统会将进程的状态保存到一个core dump文件中,以便后续进行调试和分析。 要查看core dump文件,可以使用以下命令: ```shell $ gdb <program_name> <core_dump_file> ``` 其中,`<program_name>`是发生segmentation fault的程序名称,`<core_dump_file>`是生成的core dump文件的路径。使用gdb工具可以打开core dump文件并进行调试,以找出导致segmentation fault的具体原因。 要解决segmentation fault问题,可以采取以下步骤: 1. 检查程序中的指针和内存访问是否正确,避免越界访问和非法内存访问。 2. 检查程序是否使用了动态分配的内存,并确保在使用完毕后释放了所有分配的内存。 3. 调试程序,使用gdb工具打开core dump文件并逐步执行程序,查看在发生segmentation fault时的内存状态,找出问题所在。 4. 如果问题仍然无法解决,可以尝试使用其他工具或方法进行调试和分析,例如使用valgrind等内存检测工具。 总之,Linux segmentation fault core dumped是一个常见的错误提示,它通常是由于程序访问了不属于它的内存区域所导致的。通过查看core dump文件并进行调试和分析,可以找出导致segmentation fault的具体原因并加以解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值