内存写越界导致破环堆结构引起的崩溃问题定位经验[如报错malloc(): memory corruption或free(): invalid next size]

最新推荐文章于 2024-08-05 07:45:00 发布

slvher

最新推荐文章于 2024-08-05 07:45:00 发布

阅读量1w

点赞数 4

分类专栏： C 文章标签： Linux C memory corruption

本文链接：https://blog.csdn.net/slvher/article/details/9144161

版权

本文分享了在遇到Linux环境下因内存写越界导致的堆结构破坏和崩溃问题的定位经验，强调了调用堆栈信息的重要性，同时也指出在库函数和公共库出现问题概率较低的情况下，应重点审查自身代码，避免盲目自信，以此提高问题解决效率。

摘要由CSDN通过智能技术生成

前段时间开发的一个后端C模块上线后，线上出core，初始时，由于访问压力不大，所以崩溃是上线3天左右出现的。当时用gdb跟进调用堆栈并检查源码，发现出core位置的代码没有啥问题。由于当时开发任务较重，且该模块不保存状态（崩溃重启不影响对外服务），所以没有深入跟进。后来随着客户端版本逐渐放量导致访问压力上升，噩梦开始了。。。
该模块会不定时core掉，而且几乎每次崩溃时的调用堆栈都不一样，关键是最后几层堆栈很多都位于几乎不可能出问题的代码中，比如库函数或厂里的公共库。
好在在众多core文件中发现规律：每次基本都是在对内存动态操作时挂掉，比如malloc/realloc/free/new/delete都引起了崩溃。而且幸运的是，崩溃进程还是输出了一些关键信息，比如下面这些（这些是在不同的崩溃时刻分别输出的）：
*** glibc detected *** malloc(): memory corruption: 0x0000002a95c1ff10 ***
*** glibc detected *** double free or corruption (out): 0x0000000000f0d910 ***
*** glibc detected *** free(): invalid next size (normal): 0x0000002a96103b00 ***
*** glibc detected *** free(): invalid next size (fast): 0x0000000000f349d0 ***
*** glibc detected *** corrupted double-linked list: 0x0000002a95f062e0 ***