记一次问题排查过程

记一次问题排查过程

表现

FooServer启动后,在处理行情请求时,报告错误:

./quz.lua:119: attempt to index global 'Bar' (a nil value)

排查分析

通过代码检索,发现Bar对象是 libluabar.so 注册到lua中的。在运行环境中, libluabar.so 位于 luamodule 目录下,没有配置文件指向这个目录。 使用 grep -a 检查程序文件和库文件,发现 luamodule 目录名硬编码在 libFooService.so 中。 这个库的源代码和二进制文件版本管理混乱,我不能确定拿到的代码和二进制文件是否匹配,所以决定参考源代码和反汇编代码,尝试定位问题。 检索 libFooService.so 的代码,发现加载 libluabar.so 的代码如下:

void FooService::LoadModules() {
        // ...
        CBARUtils::getFullPath("luamodule", pszFullPath, 256);

        // 取luamodule目录下所有文件.
        CFileInfo::BuildFileArray(pszFullPath, &fileArray, NULL);

        size_t nSize = fileArray.size();
        CFileInfo* pFileInfo;
        size_t nIndex = 0;

        FooModuleInfo ldi;
        while (nIndex < nSize) {
                pFileInfo = (CFileInfo*)fileArray[nIndex];
                if (pFileInfo->EndWith("so") && strnicmp(pFileInfo->pFileName,"liblua",6) == 0) {
                        // 多加一个判断,去掉luaxxx_bak等.
                        if (isAvailModule(pFileInfo->pFileName)) {
                                // OK,try loadlib.
                                strcpy(pszFile,pszFullPath);
                                strcat(pszFile,"/");
                                strcat(pszFile,pFileInfo->pFileName);
                                hLib = ACE_OS::dlopen(pszFile);
                                if (hLib != NULL) {
                                        ldi.handler = hLib;
                                        strcpy(ldi.fileName,pFileInfo->pFileName);
                                        m_daModules.append(ldi);
                                } else {
                                        BAR_LOG((ERROR,"load %s error:%s", pszFile, ACE_OS::dlerror()));
                                }
                        }
                }
                nIndex++;
        }
        CFileInfo::clearFileArray(&fileArray);
}

进入 FooService::LoadModules 后,在 strnicmp 处下断点,执行 finish 命令,断点没有触发。由此判断 BuildFileArray 读取的文件数为0。 检查源代码:

bool CFileInfo::BuildFileArray (char* pstrPathName, DynArray<CFileInfo*>* pFileInfoArray ,char* pDir) {
        struct dirent* ent = NULL;
        DIR* pDirent;
        CFileInfo* pFileInfo = NULL;

        if ((pDirent=opendir(pstrPathName)) == NULL) {
                return false;
        }

        while ((ent=readdir(pDirent)) != NULL) {
                if (ent->d_type == DT_REG) {
                        pFileInfo = new CFileInfo();
                        if (pDir != NULL) {
                                strcpy(pFileInfo->pFileName,pDir);
                                strcat(pFileInfo->pFileName,"/");
                                strcat(pFileInfo->pFileName, ent->d_name);
                        } else {
                                strcpy (pFileInfo->pFileName, ent->d_name);
                        }

                        pFileInfo->nDataLen = ent->d_reclen;
                        pFileInfoArray->append(pFileInfo);
                }
        }

        closedir(pDirent);
        return true;
}

在 readdir 处下断点,单步执行,发现判断 DT_REG 的地方总是失败。查看 readdir 手册,发现这样一段:

struct dirent {
    ino_t          d_ino;       /* inode number */
    off_t          d_off;       /* not an offset; see NOTES */
    unsigned short d_reclen;    /* length of this record */
    unsigned char  d_type;      /* type of file; not supported
                                   by all file system types */
    char           d_name[256]; /* filename */
};

上网找了一些资料,发现CentOS 7把文件系统换成了 XFS,猜测是这个变更导致 DT_REG 判断失败。编写程序验证:

#include <stdio.h>
#include <dirent.h>

int main() {
        DIR *dir;
        struct dirent *entry;

        dir = opendir(".");
        if (dir == NULL) {
                perror("opendir");
                exit(0);
        }

        while ((entry = readdir(dir)) != NULL) {
                printf("name: %s type: %d equal DT_REG: %d\n",
                       entry->d_name, entry->d_type, (entry->d_type == DT_REG));
        }

        return 0;
}

在两台服务器上运行,CentOS 7上输出的 type 是 0,而 6.5 输出的是 8 。由此断定 CentOS 7 的文件系统变更是导致 FooServer 出现异常的原因。

总结

  1. 对于手册中注明和平台/实现相关的函数,使用时要特别注意,尽量避免使用。
  2. 定义和使用函数时尽量保证单一职责和语义上的一致性。比如readdir应只用来读取目录项,而不是判断目录项类型。
  3. Docker Hub中的CentOS 7镜像,使用的文件系统是ext4,不存在上述问题。

修订记录

  1. 2016年12月13日 建立文档。
  2. 2017年06月19日 改为rst格式。

转载于:https://my.oschina.net/u/131191/blog/993953

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值