Segmentation fault (core dumped)（核心转载）与清理显存等问题解决

最新推荐文章于 2024-08-19 13:45:03 发布

搞视觉的张小凡

最新推荐文章于 2024-08-19 13:45:03 发布

阅读量4.3k

点赞数 3

分类专栏： Bug解决方案文章标签：核心转载显存清理 core dumped

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/comway_li/article/details/88309464

版权

Bug解决方案专栏收录该内容

21 篇文章 1 订阅

订阅专栏

问题：

跑训练时，其他的能够准确训练，可是跑其他代码的时候就会出现core dumped，导致不能正确训练。

问题原因

core dump又叫核心转储, 当程序运行过程中发生异常, 程序异常退出时, 由操作系统把程序当前的内存状况存储在一个core文件中, 叫core dump.

一般这种问题，由如下几个原因：

堆栈溢出

内存访问越界，如由于使用错误的下标，导致数组访问越界

显存占有问题。

还有一种原因是：annconda的原因，博主不用anconda安装的tf（在pycharm安装tf，进行训练），进行训练，就不会出现问题，我猜想可能是anconda内存管理有点问题？

解决办法

我自己出现的问题是因为显存占有问题，故采取如下方式解决。

1、将训练脚本进行更改，把其中GPU内存占用比例改小点，即训练中gpu_memory_fraction这个参数。

2、或者将batchsize改小点。

3、在跑深度学习的时候，有时候可能由于关闭程序的不规范，导致显存一直被占用，故要清理显存。

查看占用显存的任务，在终端输入：

watch -n 1 nvidia-smi

出现下图。

可以看出，PID为3848任务占用了显存。故需要清理这个显存。

输入命令，其中PID为编号数字，需要清理哪个任务，就将PID改为那个任务的数字。

sudo kill -9 PID

完结。。。。。

搞视觉的张小凡

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。