1、背景:
公司因业务需求,使用docker部署一套zabbix监控服务之后,有一天早上打开zabbix主页时提示报错,显示无法访问到mysql数据库,
2、问题描述:
报错提示如下:
3、问题分析:
根据提示的信息,初步判断是zabbix的mysql数据库有问题,然后通过
# docker ps
查一下结果如下:
1、初步检查发现mysql容器时运行正常的;
2、然后检查服务器的CPU和内存的使用情况,也没有发现其他问题;
# docker exec -it mysql /bin/bash
时提示报错:
error: rpc error: code = 14 desc = grpc: the connection is unavailable"
3、根据报错信息分析得知:
应该是docker服务存在问题,就是检查一下docker容器的日志,通过
# docker logs -f mysql
注:没有发现异常,但是日志的最新时间的是凌晨00点,后面的就没有了,
4、直接重启了容器但是还是报错,显示如下:
然后根据报错去网上查,发现都有遇见了但是,大部分是防火墙开启了,
检查一下发现防火墙没有开启。然后直接就重启了docker服务。发现还是启动不了zabbix的容器,然后去分析一下message的日志,发现在00凌晨的时候mysql容器被直接杀掉了,发现在凌晨的时候就报错了
Dec 25 00:55:21 SBF-logapp2 journal: 167:20191225:005521.734 database is down: reconnecting in 10 seconds
Dec 25 00:55:21 SBF-logapp2 journal: 175:20191225:005521.734 [Z3001] connection to database 'zabbix' failed: [2003] Can't connect to MySQL server on 'mysql-server' (111)
Dec 25 00:55:21 SBF-logapp2 journal: 175:20191225:005521.734 database is down: reconnecting in 10 seconds
Dec 25 00:55:21 SBF-logapp2 journal: 160:20191225:005521.734 [Z3001] connection to database 'zabbix' failed: [2003] Can't connect to MySQL server on 'mysql-server' (111)
Dec 25 00:55:21 SBF-logapp2 journal: 160:20191225:005521.734 database is down: reconnecting in 10 seconds
Dec 25 00:55:21 SBF-logapp2 journal: 161:20191225:005521.735 [Z3001] connection to database 'zabbix' failed: [2003] Can't connect to MySQL server on 'mysql-server' (111)
Dec 25 00:55:21 SBF-logapp2 journal: 161:20191225:005521.735 database is down: reconnecting in 10 seconds
Dec 25 00:55:21 SBF-logapp2 journal: 166:20191225:005521.736 [Z3001] connection to database 'zabbix' failed: [2003] Can't connect to MySQL server on 'mysql-server' (111)
往上翻日志发现是mysql被杀掉了
Dec 25 00:55:21 SBF-logapp2 kernel: Out of memory: Kill process 28169 (mysqld) score 28 or sacrifice child
Dec 25 00:55:21 SBF-logapp2 kernel: Killed process 28169 (mysqld) total-vm:2654536kB, anon-rss:467868kB, file-rss:0kB, shmem-rss:0kB
Dec 25 00:55:21 SBF-logapp2 journal: 2019-12-24T16:55:17.788571Z 1281207 [Note] Aborted connection 1281207 to db: 'zabbix' user: 'zabbix' host: '146.12.64.77' (Got an error reading communication packets)
Dec 25 00:55:21 SBF-logapp2 journal: 2019-12-24T16:55:17.788571Z 1281212 [Note] Aborted connection 1281212 to db: 'zabbix' user: 'zabbix' host: '146.12.64.77' (Got an error reading communication packets)
然后使用Linux查看杀死进程的查看日志命令确认一下是不是被系统给杀掉了
# egrep -i -r ‘killed process’ /var/log和# dmesg|grep memory
注:在重新启动docker服务的时候,需要释放一下内存。
4、问题解决:
然后将docker服务对应的进程杀死掉,然后重新启动docker服务,最后启动zabbix容器就可以了,
使用docker logs -f mysql_id 查看mysql容器的日志,发现一直在刷日志。并且zabbix主页也可以打开了,所以可以基本确定是内存不足导致OOM Killer杀掉了mysql进程到这里的时候就一个疑问了就是系统为什么会把mysql进程给kill掉呢???
可以参考内核的源码linux/mm/oom_kill.c,里面的oom_badness方法,方法注释中说了,调出最耗内存的进程杀掉,如下图,我们的机器上mysql占用了最大的内存,所以就被杀掉了
以上就是自身亲自遇见的问题,希望可以帮助您。