Segmentation fault (core dumped)(核心转载)与清理显存等问题解决

问题:

跑训练时,其他的能够准确训练,可是跑其他代码的时候就会出现core dumped,导致不能正确训练。

问题原因

core dump又叫核心转储, 当程序运行过程中发生异常, 程序异常退出时, 由操作系统把程序当前的内存状况存储在一个core文件中, 叫core dump.

一般这种问题,由如下几个原因:

堆栈溢出

内存访问越界,如由于使用错误的下标,导致数组访问越界

显存占有问题。

还有一种原因是:annconda的原因,博主不用anconda安装的tf(在pycharm安装tf,进行训练),进行训练,就不会出现问题,我猜想可能是anconda内存管理有点问题?

解决办法

我自己出现的问题是因为显存占有问题,故采取如下方式解决。

1、将训练脚本进行更改,把其中GPU内存占用比例改小点,即训练中gpu_memory_fraction这个参数。

2、或者将batchsize改小点。

3、在跑深度学习的时候,有时候可能由于关闭程序的不规范,导致显存一直被占用,故要清理显存。

查看占用显存的任务,在终端输入:

watch -n 1 nvidia-smi

出现下图。 

 

 可以看出,PID为3848任务占用了显存。故需要清理这个显存。

输入命令,其中PID为编号数字,需要清理哪个任务,就将PID改为那个任务的数字。

sudo kill -9 PID

完结。。。。。 

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux segmentation fault core dumped是一个常见的错误提示,它通常意味着程序在运行时出现了严重的问题,导致操作系统无法继续执行进程并产生了core dump文件。core dump文件是系统在发生异常时自动生成的文件,它包含了发生异常时的内存状态,可以帮助开发者进行问题排查和调试。 Segmentation fault通常是由于程序访问了不属于它的内存区域所导致的。这可能是由于程序中的指针错误、数组越界访问、非法内存访问等原因引起的。当程序发生segmentation fault时,操作系统会将进程的状态保存到一个core dump文件中,以便后续进行调试和分析。 要查看core dump文件,可以使用以下命令: ```shell $ gdb <program_name> <core_dump_file> ``` 其中,`<program_name>`是发生segmentation fault的程序名称,`<core_dump_file>`是生成的core dump文件的路径。使用gdb工具可以打开core dump文件并进行调试,以找出导致segmentation fault的具体原因。 要解决segmentation fault问题,可以采取以下步骤: 1. 检查程序中的指针和内存访问是否正确,避免越界访问和非法内存访问。 2. 检查程序是否使用了动态分配的内存,并确保在使用完毕后释放了所有分配的内存。 3. 调试程序,使用gdb工具打开core dump文件并逐步执行程序,查看在发生segmentation fault时的内存状态,找出问题所在。 4. 如果问题仍然无法解决,可以尝试使用其他工具或方法进行调试和分析,例如使用valgrind等内存检测工具。 总之,Linux segmentation fault core dumped是一个常见的错误提示,它通常是由于程序访问了不属于它的内存区域所导致的。通过查看core dump文件并进行调试和分析,可以找出导致segmentation fault的具体原因并加以解决
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值