【问题描述】
我们生产环境有一组集群的多台MySQL服务器(MySQL 5.6.21),不定期的会crash,但error log中只记录了重启信息,未记录crash时的堆栈:
mysqld_safe Number of processes running now: 0mysqld_safe mysqld restarted
接下来首先排查系统日志/var/log/message文件,crash时没有其他异常信息,也不是OOM导致的。
【排查思路】
由于日志中未记录有价值的信息。为定位crash的原因,首先开启mysql core dump的功能。
下面是开启core dump的步骤:
1、 在my.cnf文件中增加2个配置项
[mysqld]core_file[mysqld_safe]core-file-size=unlimited
2、修改系统参数,配置suid_dumpable
echo 1 >/proc/sys/fs/suid_dumpable
3、重启mysql服务,配置生效
【问题分析】
开启core dump后,服务器再次crash时生成了core file。
用gdb分析生成的core file,可以看到crash时的堆栈信息如下:
从函数table_esms_by_digest::delete_all_rows可