Solaris10 GCC bus error 一例
环境:
Solaris10 SPARC
GCC 4.4.2
背景:
原先代码使用CC编译的,是32位程序。有-O2优化。
现在迁移到GCC下,并改为64位程序。调试阶段未加-O2优化。
问题:
程序运行某些用例,在最后退出时,会报bus error。随机性很大。
堆栈是某些全局的string(或map)对象析构时,调用realfree(或t_delete),抛出bus error。
而具体是哪些全局对象不固定。
问题解决:
最终发现,有一个文件分别被两个库引用。而这个文件包含了全局对象。
链接生成可执行文件时,会同时链接这两个库。修改为只链接一个库,问题解决。
定位过程:
1)由于是程序退出时才会bus error,无法通过简单的调试来定位。
尝试了一些方法后,觉得逐步注释代码,来定位到底那块代码导致这个问题。
2)在注释代码的过程中,发现有的非常简单的一行赋值语句(例如给一个string对象赋值),注释掉它,程序就正常;打开这行,程序就bus error。
3)索性把大部分代码都注释了,只留几行代码,程序依然bus error。留下的那几行代码是不可能有问题的。
4)考虑到这应该是链接的库有问题。因为现在程序已经没有什么代码了,于是决定一个一个去掉链接的库。看看哪个库会造成bus error。
5)最终定位出了出问题的库。
这个问题的难定位之处在于,堆栈里显示析构有问题的对象,和最终导致问题的那个重复文件里的对象,相隔十万八千里,根本没有关系。
而且,在某些情况下会出问题,另外一些情况却没问题。
如果将那个重复的文件中的全局变量去掉一些,也不会出问题。
环境:
Solaris10 SPARC
GCC 4.4.2
背景:
原先代码使用CC编译的,是32位程序。有-O2优化。
现在迁移到GCC下,并改为64位程序。调试阶段未加-O2优化。
问题:
程序运行某些用例,在最后退出时,会报bus error。随机性很大。
堆栈是某些全局的string(或map)对象析构时,调用realfree(或t_delete),抛出bus error。
而具体是哪些全局对象不固定。
问题解决:
最终发现,有一个文件分别被两个库引用。而这个文件包含了全局对象。
链接生成可执行文件时,会同时链接这两个库。修改为只链接一个库,问题解决。
定位过程:
1)由于是程序退出时才会bus error,无法通过简单的调试来定位。
尝试了一些方法后,觉得逐步注释代码,来定位到底那块代码导致这个问题。
2)在注释代码的过程中,发现有的非常简单的一行赋值语句(例如给一个string对象赋值),注释掉它,程序就正常;打开这行,程序就bus error。
3)索性把大部分代码都注释了,只留几行代码,程序依然bus error。留下的那几行代码是不可能有问题的。
4)考虑到这应该是链接的库有问题。因为现在程序已经没有什么代码了,于是决定一个一个去掉链接的库。看看哪个库会造成bus error。
5)最终定位出了出问题的库。
这个问题的难定位之处在于,堆栈里显示析构有问题的对象,和最终导致问题的那个重复文件里的对象,相隔十万八千里,根本没有关系。
而且,在某些情况下会出问题,另外一些情况却没问题。
如果将那个重复的文件中的全局变量去掉一些,也不会出问题。