主从复制中常会遇到的问题就是1062主键重复、1023slave上相关记录没找到。

如果在读写分离的架构中,slave同步失败会对业务造成很大的影响的(比如用户在master上发了帖子,阅览跑到了slave上,找不到了刚才的帖子了)。


因此,我们很有必要对主从复制做些监控,做些自动化的处理。

这里要涉及到MySQL的一个参数slave_exec_mode


slave_exec_mode参数可用来自动处理同步复制错误:

# slave上执行
> set global slave_exec_mode='IDEMPOTENT';  幂等模式 (默认是STRICT严格模式)
> stop slave;
> start slave;


经过上面3步的设置后,当出现1023错误(记录没找到)、1062错误(主键重复)时,就会自动跳过错误,并且记录到错误日志里。

其实,slave_exec_mode和slave_skip_errors的作用是一样的,但是slave_skip_errors不支持动态修改,必须重启mysql才能生效,因此建议使用slave_exec_mode。



脚本方法如下 cat /home/scripts/manage_repl.sh:

#!/bin/bash
# Description: 自动跳过主从复制的错误(错误代码1023、1062) ,这个脚本在slave上执行
#  

user='root'
pass='root'
port='3306'
IP='172.16.10.10'
MYSQLCLI='/usr/local/mysql/bin/mysql'

STATUS=$($MYSQLCLI -u$user -p$pass -h $IP -e 'show slave status\G'|sed -n '13p'|awk -F ":" '{print $2}')

if [[ $STATUS != 'YES' ]];then
    $MYSQLCLI -u$user -p$pass -h $IP -e "SET GLOBAL slave_exec_mode='IDEMPOTENT';"
    $MYSQLCLI -u$user -p$pass -h $IP -e "stop slave';"
    $MYSQLCLI -u$user -p$pass -h $IP -e "start slave';"
    echo -e "地址: $IP\n端口: 3306\n服务: MySQL主从复制发生错误,系统已自动跳过错误,请后续跟进处理。\n发生时间: `date +"%F %T"`" \
    | mail -s '主从复制错误警告'  xxxxxx@126.com
fi


添加一个每隔10分钟检查一次主从复制状态的计划任务,如下:

echo '*/10 * * * * /home/scripts/manage_repl.sh' >>/var/spool/cron/root