Linux下运行程序崩溃出现segment error/fault(段错误) 的可能原因和排查方法


简而言之就是访问了错误的内存段或者是0地址。

一、表现/现象

在Eclipse的输出框或者Linux终端调用运行的时候报出xxxxx文件的某一行有一个segment error/fault

这个问题属于比较棘手和麻烦的问题,因为像这个内存报错问题在VS下一般不会有问题,在Linux下才会无法运行。

需要注意的是,报错信息里面的xxxx文件的xxx行出现了段错误也不一定是准确的,因为此时程序已经跑飞了,所以报的错可能风马牛不相及,还是要从上次稳定运行的代码到这次的代码中的增加的代码入手,所以下面提供一些可能的原因,方便从代码入手排除错误

二、可能的原因

2.1 内存访问越界

  1. 由于使用错误的下标,导致数组访问越界,我最早遇到这个问题就是这样的,我计算的数组大小和实际的有偏差,设置的小了一点,Visual Studio下没有问题,一旦到eclipse下编译运行就会直接闪退
  2. 搜索字符串时,依靠字符串结束符来判断字符串是否结束,但是字符串没有正常的使用结束符
  3. 使用strcpy, strcat, sprintf, strcmp, strcasecmp等字符串操作函数,将目标字符串读/写爆。应该使用strncpy, strlcpy, strncat, strlcat, snprintf, strncmp, strncasecmp等函数防止读写越界。 数组开小了 我曾在这地方吃过亏了

2.2 多线程未加锁

程序使用了线程不安全的函数,多线程读写的数据未加锁保护。
对于会被多个线程同时访问的全局数据,应该注意加锁保护,否则很容易造成core dump

2.3 非法指针

  1. 使用空指针
  2. 随意使用指针转换。一个指向一段内存的指针,除非确定这段内存原先就分配为某种结构或类型,或者这种结构或类型的数组,否则不要将它转换为这种结构或类型的指针,而应该将这段内存拷贝到一个这种结构或类型中,再访问这个结构或类型。这是因为如果这段内存的开始地址不是按照这种结构或类型对齐的,那么访问它时就很容易因为bus error而core dump.

2.4 堆栈溢出.

不要使用大的局部变量(因为局部变量都分配在栈上),这样容易造成堆栈溢出,破坏系统的栈和堆结构,导致出现莫名其妙的错误。

三、排查的方法

网上也有一些像是通过core文件来判断错误的方法,Linux下的C程序常常会因为内存访问等原因造成segment fault(段错误),如果此时core dump 的功能是打开的,在运行我们的可执行程序时就会生成一个名为core的文件,然后我们就可以用gdb对core文件来进行调式,还原发生错误的堆栈情况例如上面的这两篇文章。

但我觉得这种方法并不直观,而且操作起来也过于复杂,所以下面从代码的角度提供一种判断问题的思路。

上面已经说过,由于内存读取段错误的时候,程序已经跑飞了,所以报错的文件实际上不一定是真正有问题的文件(大概率不是),所以我们确定有问题的代码应该是从上一次更新到这一次准备提交之间的代码。针对从代码的角度找错误,有直接法间接排除法两种方法:

3.1 直接法:

根据当前新增代码,检查是否有类似设置的数组大小过小而导致越界情况错误的出现,如果代码段中有符合上述原因的相关片段,则要提高警惕,主动检查,如果不确定数组大小设置是否合适,可以主动扩大数组容量进行测试。

3.2 间接排除法:

  1. 如果直接法没有找到错误原因的话,可以分段屏蔽掉新增的代码,如果哪一段屏蔽之后不再出现段错误,则证明该段内部有问题。
  2. 在该段内部,可以添加一段打印信息(例如打印一串星号“*************”),然后把这个打印信息放在可能出现问题的语句的下面,当我们发现报错的出现但是控制台并没有打印出星花的时候,则说明在打印信息代码的上面出现了内存报错
  3. 逐步将打印信息的代码向上提,直到打印信息出现在报错之前,即可确定错误语句的位置,也就可以根据上面的原因进行对应的修改
    在这里插入图片描述

需要注意的是:
由于内存错误的特殊性,很有可能测试的结果会有一定的误差,即:有错误的代码也有可能偶尔一次表现正确,这样就为我们定位错误又增加了一些难度,因为有可能屏蔽掉当前代码这次没出错,下次出错了。但是只要代码是有问题的,大概率都会出错。为了应对这种情况,我们应该:在屏蔽掉每段代码或者增加了相关打印信息之后,多测试几遍效果(2-3遍),确定是否必发,以确保我们得到的排查方向是准确的

如果大家发现本文还有需要补充或者不会准确的地方,欢迎交流!

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Segmentation fault段错误)通常是由于程序访问了无效的内存地址引起的。在 Linux 中,可以使用以下方法来查看段错误原因: 1. 使用 gdb 调试器 使用 gdb 可以帮助我们定位代码中出现段错误的位置。首先,需要在编译时加上 `-g` 选项生成调试信息。然后,在运行程序时,使用 gdb 启动程序,并在出现段错误时停止程序。可以使用 `bt` 命令查看调用栈,找到出现段错误的位置。例如: ``` $ gcc -g -o myprogram myprogram.c $ gdb myprogram (gdb) run Starting program: /home/user/myprogram Program received signal SIGSEGV, Segmentation fault. 0x00005555555546d3 in main () (gdb) bt #0 0x00005555555546d3 in main () ``` 在上面的示例中,我们在 `main` 函数中出现段错误。 2. 使用 valgrind 工具 valgrind 是一款用于检测内存泄漏和内存访问错误的工具。可以在 Linux 中使用以下命令来安装 valgrind: ``` $ sudo apt-get install valgrind ``` 然后,在运行程序时使用 valgrind 工具检测内存错误。例如: ``` $ valgrind ./myprogram ``` valgrind 会输出内存错误的详细信息,帮助我们定位问题。 3. 使用系统日志 当程序出现段错误时,Linux 系统会将错误信息写入系统日志。可以使用以下命令来查看系统日志: ``` $ dmesg | tail ``` 在输出中,可以找到与段错误相关的信息,例如内存地址和错误代码。 通过以上方法,我们可以定位并解决程序出现段错误
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KingsMan666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值