在以往的测试过程中,每当遇到程序出现coredump的状况,我的第一反应就是有bug,让开发定位原因,但是如果自己能够去挖掘原因,在与开发沟通的过程中能明确指出问题所在,一定能提高沟通,定位问题的效率。
最近利用空余时间学习了一下core的基本知识,发现有很多新的发现(其实是自己以前不知道,呵呵),在这里分享给大家,希望对大家有所帮助。
1. core文件的简单介绍
在一个程序崩溃时,它一般会在指定目录下生成一个core文件,core文件包含了程序运行时的内存,寄存器状态,堆栈指针,内存管理信息等,可以帮助我们进行调试。
2. 造成coredump的常见原因
(1) 内存访问越界
(2) 多线程程序使用了线程不安全的函数
(3) 多线程读写的数据未加锁保护
(4) 非法指针
(5) 堆栈溢出
3. core文件的生成开关和大小限制
(1) 使用ulimit –c命令可查看core文件的生成开关,若结果为0,则表示关闭了此功能,不会生成core文件。
(2) 使用ulimit –c filesize命令,可以限制core文件的大小,如果此文件大小超过限制,将会被裁剪,最终生成不完整的core文件。若为ulimit –c unlimited,则不限制core文件的大小。
注意:在测试前需检查core文件的开关是否打开;在测试过程中发现程序异常退出,但没有产生core,我们也需要第一时间检查core文件是否打开。有几种方式让程序产生core:
(1) 修改core文件生成大小的配置,例如ulimit –c 1000,这个修改只对当前会话有效;
(2) 通过将一个相应的 ulimit 语句添加到由登录 shell 读取的文件,如~/.profile,例如在wx用户下的~/.profile增加ulimit –c unlimited,那么对于wx用户就可以生成没有大小限制的core文件,但是对于其他用户不生效;
(3) 修改/etc/profile文件,将默认配置# ulimit -Sc 0,将配置改成可用,并设置为ulimit -Sc unlimited,那么该机器的所有用户都将生成无大小限制的core文件;
(4) 在程序的启动脚本(例如restart.sh)的开头设置ulimit –c unlimited,这只是对该进程有用;
4. core文件的名称和生成路径设置
若系统生成的core文件不带其他任何扩展名称,则全部命名为core,新的core文件生成将会覆盖原来的core文件。
/proc/sys/kernel/ core_uses_pid可以控制core文件的文件名是否添加pid作为扩展。文件内容为1表示添加pid,生成的core文件格式为core.XXXX,为0表示不添加。可以通过以下命令修改此文件:echo “1”> /proc/sys/kernel/ core_uses_pid。
/proc/sys/kernel/ core_pattern可以控制core文件保存位置和文件名格式。可以通过以下命令修改此文件:
echo “/corefile/core-%e-%p-%t”> core_pattern,可以将core文件统一生成到/corefile目录下,产生的文件名为core-命令名-pid-时间戳,以下是参数列表:
%p表示添加pid;
%u表示添加当前uid;
%g表示添加当前gid;
%s表示添加导致产生core的信号;
%t表示添加core文件生产时的unix时间;
%h表示添加主机名;
%e表示添加命令名;
5. 如何查看core文件
如果我们不清楚core是由哪个进程产生的,我们可以通过使用命令“file core文件”来查看。
例如core文件是由test这个进程产生的,那么通过命令“gdb test corefile”查看core文件的内容,在输入bt或where检查程序运行到哪里,来定位coredump的行。
我们查看一个core的例子,例如getd在启动时出现了core,内容为:
我们可以看到在getdapp.cpp的1108行调用assert函数出现错误,从而抛出了信号,产生了core。
core显示的内容为堆栈信息,我们可以通过输入up来查看上一层堆栈的信息,例如:我们最初看到core文件信息为:
连续输入up后,显示内容为:
6. gdb常用命令
有些core能简单的定位出,但是有些core文件的定位还需要了解gdb常用的命令,通过这些命令与core文件结合,我们才能快速定位出问题。下面简单的介绍一下gbd常用的命令:
(1) l:相当于list,从第一行开始列出原码;
(2) 回车:表示重复上一次命令;
(3) P:print的缩写,打印变量的值,格式为P 变量名;
(4) break:设置断点,例如break 22表示在22行设置断点,break test表示在test函数入口处设置断点;
(5) info break:查看断点信息;
(6) r:表示运行程序;
(7) c:继续运行程序;
(8) n:next的缩写,表示单步运行;
(9) bt:查看函数堆栈;
(10) finish:退出函数;