问题背景
最近重构代码的时候发现一个踩内存的bug,当时没有时间将这个问题记录下来,这一次简单记录一下。
问题描述
经过打印发现代码中的数据会被莫名的改掉,全局搜索发现没有地方修改这个结构体。这个问题随机出现,确认代码被随机踩掉了数据。
过程分析
1.已经确认是内存被踩,首先看map文件,发现这个结构体附近是,另外一个线程的堆栈,有可能是堆栈越界了。经过分析发现,这个县城的堆栈剩余还是比较多的不会出现这种情况,排除。
2.那说明很有可能是被空指针踩掉了数据。这样问题一时就不好分析。因此首先,在被踩的这个结构体前面放上一个很大的空数组。查找被采数据的内容。
3.发现被踩的数据长度,很固定都是22个字节,这个长度和避障传感器上来的数据帧长度很接近,所以去查看驱动代码。但是没有发现问题。
4.然后去看被踩数据的内容,发现总是有0a0f,这个数据很特别,因为这个是我们回复服务器的数据的帧头。因此确认回复服务器部分的代码肯定有问题。
5.经过查找发现,有使用未指向任何内容的空指针。并且后面有代码使用memcpy来复制数据给这个地址,造成踩内存的情况。而这个函数,重构的时候直接从老代码粘贴过来的,谁也没有关心过这部分的代码,结果就偏偏这一部分出现了问题。
总结
写代码一定要注意,写出优秀的代码应该是一种追求,而不是完成工作。希望自己的代码精巧玲珑,稳定可靠,提高要求。