今天对前几天的程序进行了一些修改, 运行时程序出现段错误, 用gdb调试一下, 通过查看调用堆栈,得知段错误是由于调用了一个队列的成员函数 isQueueEmpty 引起的, isQueueEmpty函数的作用是用来判断队列是否为空的, 看了一下isQueueEmpty 的定义,发现isQueueEmpty 函数体只有一条语句:
template <class Type>
bool TQueue<Type>::isQueueEmpty()
{
return (m_pQueueHead == NULL);
}
怎么看这条语句都不像会出现段错误呀?难道是gdb误报?赶紧把函数体改下以下这样,打印一些信息看看:
template <class Type>
bool TQueue<Type>::isQueueEmpty()
{
printf( "start isQueueEmpty()");
printf( "m_pQueueHead = %p/n", m_pQueueHead );
if (m_pQueueHead == NULL) {
printf( "end isQueueEmpty() 1");
return true;
}
printf( "end isQueueEmpty() 2");
return false;
}
再次编译运行后发现,程序只打印了start isQueueEmpty()就over了... 也就是说,只要访问m_pQueueHead,就会引起段错误,可是, m_pQueueHead虽然是一个指针变量,就算所指向的内容有误,但这里并没有引用指针所指向的内容呀...
再次运行单元测试程序,重点测试一下TQueue<Type>模板类,没有发现问题...
之前可没有见过这个错误,可能是今天新增的代码引起的,怀着试一试的想法,根据程序的运行路径,用排除法一步一步地注释着今天新增的代码,最终发现,只要调用了一个名叫getIPAddress的函数,isQueueEmpty()函数的调用就会引起段错误。
getIPAddress的函数用来取得本机的IP地址,这个函数是项目公共库里面的一个函数,是上一个版本就留下来的,所以拿过来用时没有怀疑过它的正确性,它的函数声明很简单:
int getIPAddress(const char* ifname, char* ipaddr);
参数ipaddr用来传入存放IP地址的缓冲区,奇怪的是没有要求传入缓冲区的大小,于是打开公共库的源文件,定位到getIPAddress函数的定义,找到了两行可疑的代码:
int getIPAddress(const char* ifname, char* ipaddr)
{
...
memset(ipaddr, 0, IPADDR_MAXLEN); //它假设了ipaddr的大小为IPADDR_MAXLEN
strncpy( ipaddr, inet_ntoa(addr.sin_addr), IPADDR_MAXLEN-1);
...
}
看了一个IPADDR_MAXLEN定义的大小,吓着了,是512
而我定义ipaddr的时候只定义了50了字节,当然造成越界了:
char ipaddr[50]; //我认为50个字节存放一个IP地址已经是足够有余了
getIPAddress( "eth0", ipaddr );
而在以前的项目上,使用此公共库的这个函数没有出错的原因,可能公共库的设计者和使用者是同一个人,所以隐藏了这个函数界面的设计错误,例如下面这样调用就不会引起越界:
char ipaddr[IPADDR_MAXLEN];
getIPAddress( "eth0", ipaddr);
把代码改为ipaddr定义IPADDR_MAXLEN个字节,重新编译和运行程序,段错误消失了,真相大白,是由于内存越界引起了程序的其它地方报错。
最后,getIPAddress的函数界面应该设计成这样(其它类似的接口函数都一样),或者在注释中写明,必须按ipaddr[IPADDR_MAXLEN];的形式去定义ipaddr,新的函数声明如下:
int getIPAddress(const char* ifname, char* ipaddr, size_t nDestMaxSize ); //增加一个参数,指示缓冲区的最大长度
而函数内部改为:
int getIPAddress(const char* ifname, char* ipaddr, size_t nDestMaxSize );
{
...
memset(ipaddr, 0, nDestMaxSize ); //它假设了ipaddr的大小为IPADDR_MAXLEN
strncpy( ipaddr, inet_ntoa(addr.sin_addr), nDestMaxSize -1);
...
}