案例概况
在企业应用中,成熟的业务通常数据量都比较大 单台MySQL在安全性、 高可用性和高并发方面都无法满足实际的需求 ,所以需要配置多台主从数据库服务器以实现读写分离来满足需求
一、主从复制原理
1.1、 MySQL的复制类型
- 基于语句的复制(STATEMENT, MySQL默认类型)
- 基于行的复制(ROW)
- 混合类型的复制(MIXED)
1.2、MySQL主从复制的工作过程
其中最重要的是:两个日志三个线程
1.2.1、过程
Master端的操作
- 记录变更到二进制日志(Binary Log):
- 在每个事务更新数据完成之前,Master会在其二进制日志中记录这些改变。这些改变包括数据修改、结构变更等所有会影响数据库状态的操作。
- 写入二进制日志的操作完成后,Master会通知存储引擎提交事务。这一步确保了事务的完整性和数据的一致性。
Slave端的操作
- 复制二进制日志到中继日志(Relay Log):
- Slave会启动一个I/O线程,该线程在Master上打开一个普通的连接,并启动Binlog dump process。
- Binlog dump process负责从Master的二进制日志中读取事件。如果Slave已经跟上Master的进度,它会进入睡眠状态等待Master产生新的事件。
- I/O线程将这些从Master读取到的事件写入到Slave的中继日志中。中继日志是Slave端用于暂存从Master接收到的变更事件的日志。
- 应用变更到Slave数据库:
- 接下来,SQL从线程(SQL slave thread)会处理中继日志中的事件。它从中继日志中读取事件,并重新执行这些事件,以此来更新Slave数据库中的数据,使其与Master数据库中的数据保持一致。
- 只要SQL线程与I/O线程保持一致,中继日志通常会位于操作系统的缓存中,这大大减少了磁盘I/O的开销。
复制的限制
- 串行化操作:复制过程在Slave上是串行化的,这意味着在Master上并行执行的更新操作在Slave上必须串行执行。这可能导致Slave上的复制延迟,特别是当Master上的更新操作非常频繁时。
性能优化和问题解决
- 优化硬件和网络:确保Master和Slave服务器的硬件资源充足,并优化网络延迟以减少数据传输的时间。
- 使用并行复制:在MySQL 5.7及以上版本中,可以使用并行复制来加速Slave的复制速度。并行复制允许多个SQL线程同时处理中继日志中的不同事件,但需要注意事务的依赖性和冲突。
- 分析和优化SQL查询:定期分析并优化查询,确保没有慢查询影响复制性能。
- 处理复制延迟:监控复制状态,如果发现延迟,需要分析原因并采取相应措施,如增加Slave服务器的数量、优化查询等。
二、MySQL主从复制延迟
1、网络延迟
2、master服务器高并发,形成大量事务
3、主从硬件设备导致 cpu主频、内存io、硬盘io
4、本来就不是同步复制、而是异步复制从库优化Mysql参数。
比如增大innodb_buffer_pool_size,让更多操作在Mysql内存中完成,减少磁盘 操作。 从库使用高性能主机。包括cpu强悍、内存加大。避免使用虚拟云主机,使用物理主机,这样提升了i/o 方面性。 从库使用SSD磁盘 网络优化,避免跨机房实现同步 问题解决方法 半同步复制- 解决数据丢失的问题 并行复制---解决从库复制延迟的问题
三、MySQL 有几种同步方式
三种(加扩展一种)
1、异步复制(Async Replication)
2、同步复制(sync Replication)
3、半同步复制(Async Replication)
4、增强半同步复制(lossless Semi-Sync Replication)、无损复制
3.1、异步复制(Async Replication)
主完成之后就返回客户端,不关系从是否同步,主挂之后,从可能会只有原来数据。
都不等
主库将更新写入Binlog日志文件后,不需要等待数据更新是否已经复制到从库中,就可以继续处理更多 的请求。Master将事件写入binlog,但并不知道Slave是否或何时已经接收且已处理。在异步复制的机制 的情况下,如果Master宕机,事务在Master上已提交,但很可能这些事务没有传到任何的Slave上。假 设有Master->Salve故障转移的机制,此时Slave也可能会丢失事务。MySQL复制默认是异步复制,异步 复制提供了最佳性能。
2.2、同步复制(Sync Replication)
主等待所有slasve(从)完成同步数据,主返回给客户端
都等
主库将更新写入Binlog日志文件后,需要等待数据更新已经复制到从库中,并且已经在从库执行成功, 然后才能返回继续处理其它的请求。同步复制提供了最佳安全性,保证数据安全,数据不会丢失,但对 性能有一定的影响。
2.3、半同步复制(Semi-Sync Replication)
只要有一个从库和主同步就结束
等一个
主库提交更新写入二进制日志文件后,等待数据更新写入了从服务器中继日志中,然后才能再继续处理其它请求。该功能确保至少有1个从库接收完主库传递过来的binlog内容已经写入到自己的relay log里面 了,才会通知主库上面的等待线程,该操作完毕。 半同步复制,是最佳安全性与最佳性能之间的一个折中。 MySQL 5.5版本之后引入了半同步复制功能,主从服务器必须安装半同步复制插件,才能开启该复制功 能。如果等待超时,超过rpl_semi_sync_master_timeout参数设置时间(默认值为10000,表示10 秒),则关闭半同步复制,并自动转换为异步复制模式。当master dump线程发送完一个事务的所有事 件之后,如果在rpl_semi_sync_master_timeout内,收到了从库的响应,则主从又重新恢复为增强半同 步复制。 ACK (Acknowledge character)即是确认字符
2.4、增强半同步复制(lossless Semi-Sync Replication、无损复制)
默认的配置就是增强半同步
增强半同步是在MySQL 5.7引入,其实半同步可以看成是一个过渡功能,因为默认的配置就是增强半同 步,所以,大家一般说的半同步复制其实就是增强的半同步复制,也就是无损复制。 增强半同步和半同步不同的是,等待ACK时间不同rpl_semi_sync_master_wait_point = AFTER_SYNC(默认) 半同步的问题是因为等待ACK的点是Commit之后,此时Master已经完成数据变更,用户已经可以看到 最新数据,当Binlog还未同步到Slave时,发生主从切换,那么此时从库是没有这个最新数据的,用户看到的是老数据。 增强半同步将等待ACK的点放在提交Commit之前,此时数据还未被提交,外界看不到数据变更,此时如果发送主从切换,新库依然还是老数据,不存在数据不一致的问题。
四、Mysql应用场景
mysql 数据库主要的性能是读和写,一般场景来说读请求更多。
根据主从复制可以演变成读写分离,因为读写分离基于主从复制,使用读写分离从而解决高并发的问题。
4.1、mysql架构演变的方向
1、单台mysql有单点故障
2、集群--->主从复制
3、主从复制读和写的压力不均衡---->读写分离 [读写分离的基础是主从复制]
4、mysql的高可用架构MHA(master HA高可用) MGR MMM
五、主从复制实验
前置:mysql用编译安装,使用前之前内容或脚本,并且关闭防火墙和增强
master服务器配置
192.168.88.77
两台SLAVE服务器配置
192.168.88.78 192.168.88.79
1、master服务器配置
① 安装ntp、修改配置文件
②开启NTP服务
③配置主从同步
④ 重启mysql服务器
⑤在mysql中配置规则权限规则,刷新
⑥在mysql查看master数据库状态
⑦
yum install ntp -y
yum -y install ntpdate ntp
有网的情况下同步阿里云时间作为标准
ntpdate ntp.aliyun.com
vim /etc/ntp.conf
fudge 127.127.1.0 stratum 10
server 127.127.1.0
#设置本机的时间层级为10级,0级表示时间层级为0级,是向其他服务器提供时间同步源的意思,不要设置为0级,并且设置本机为时间同步源
systemctl start ntpd
vi /etc/my.cnf
#在mysqld模块下修改一下内容
#开启二进制日志文件(之后生成的日志名为master-bin)
log_bin=master-bin
#开启从服务器日志同步
log_slave-updates=true
#主服务器id为1(不可重复)
server_id = 1
systemctl restart mysqld
mysql -u root -p
mysql>
grant replication slave on *.* to 'myslave'@'192.168.88.%' identified by '123456';
flush privileges;
show master status;
grant replication slave on *.* to 'myslave'@'192.168.88.%' identified BY '123456’是什么意思?
- 给从服务器提权,允许使用slave的身份复制master的所有数据库的所有表,并指定密码为123456
2、两台SLAVE服务器配置
① 安装ntp、ntpdate服务
② 开启ntp服务
③ 时间同步master服务器
④ 两台slave服务器配置相同
⑤配置主从同步
yum install ntp ntpdate -y
systemctl start ntpd
ntpdate 192.168.88.77(主服务器ip)
- 如果提示`the NTP socket is in use, exiting`说明当前子节点的ntp服务启动了, 你要关掉它 systemctl stop ntpd.service
#master服务器同步阿里云时钟服务器,其他周期同步
crontab -e
*/10 * * * * /usr/sbin/ntpdate 192.168.88.77(主服务器ip)
vim /etc/my.cnf
log-bin=master-bin
server_id=22
relay-log=relay-log-bin
relay-log-index=slave-relay-bin.index
relay_log_recovery=1
#开启二进制日志文件
#设置server id为22,slave2 为23
#从主服务器上同步日志文件记录到本地
#定义relay-log的位置和名称(index索引)
# #选配项当 slave 从库宕机后,假如 relay-log 损坏了,导致一部分中继日志没有处理,则自动放弃所有未执行的 relay-log,并且重新从 master 上获取日志,这样就保证了relay-log 的完整性。默认情况下该功能是关闭的,将 relay_log_recovery 的值设置为 1 时, 可在 slave 从库上开启该功能,建议开启。
开启从服务器功能
mysql>
change master to master_host='192.168.88.77',master_user='myslave',master_password='123456',master_log_file='master-bin.00000001',master_log_pos=603;
附加:在主mysql服务器 查看
刷新
start slave;
查看从服务器状态
show slave status\G;
3、测试数据同步
在主服务器上创建一个数据库
create database work;
show databases;
在两台从服务器上直接查看数据库列表
show databases;
关键点是IO和SQL的YES需要对
一些报错处理
如果I/O不是yes呢,你如何排查?
首先排查网络问题,使用ping 命令查看从服务器是否能与主服务器通信
再查看防火墙和核心防护是否关闭(增强功能)
接着查看从服务slave是否开启
两个从服务器的server-id 是否相同导致只能连接一台
master_log_file master_log_pos的值跟master值是否一致
#一般 Slave_IO_Running: No 的可能性:
1、网络不通
2、my.cnf配置有问题
3、密码、file文件名、pos偏移量不对
4、防火墙没有关闭
六、读写分离实验
七、总结+面试题
1、主从同步复制原理
如上的工作内容翻译
2、读写分离你们使用什么方式? amoeba 代理 mycat 代码 sql_proxy
通过amoeba代理服务器,实现只在主服务器上写,只在从服务器上读;
主数据库处理事务性查询,从数据库处理select 查询;
数据库复制被用来把事务查询导致的变更同步的集群中的从数据库
3、如何查看主从同步状态是否成功
在从服务器上内输入 show slave status\G 查看主从信息查看里面有IO线程的状态信息,还有master服务器的IP地址、端口事务开始号。
当 Slave_IO_Running和Slave_SQL_Running都是YES时 ,表示主从同步状态成功
4、如果I/O不是yes呢,你如何排查?
首先排查网络问题,使用ping 命令查看从服务器是否能与主服务器通信
再查看防火墙和核心防护是否关闭(增强功能)
接着查看从服务slave是否开启
两个从服务器的server-id 是否相同导致只能连接一台
master_log_file master_log_pos的值跟master值是否一致
5、show slave status能看到哪些信息(比较重要)
IO线程的状态信息
master服务器的IP地址、端口、事务开始的位置
最近一次的错误信息和错误位置
最近一次的I/O报错信息和ID
最近一次的SQL报错信息和id
6、主从复制慢(延迟)会有哪些可能?怎么解决?
a、主服务器的负载过大,被多个睡眠或 僵尸线程占用 导致系统负载过大
b、从库硬件比主库差,导致复制延迟
c、主从复制单线程,如果主库写作并发太大,来不及传送到从库,就会到导致延迟
d、慢sql语句过多
e、网络延迟
f、逻辑日志简单易懂,方便数据之间的同步,但它的缺点是:事务不能太大,否则会导致二进制日志非常大,一个大事务的提交会非常慢。
假设有个 DELETE 删除操作,删除当月数据,由于数据量可能有 1 亿条记录,可能会产生 100G 的二进制日志,则这条 SQL 在提交时需要等待 100G 的二进制日志写入磁盘,如果二进制日志磁盘每秒写入速度为 100M/秒,至少要等待 1000 秒才能完成这个事务的提交。
所以在 MySQL 中,一定要对大事务特别对待, 总结起来就是:
-
设计时,把 DELETE 删除操作转化为 DROP TABLE/PARTITION 操作;
-
业务设计时,把大事务拆成小事务。
对于第一点(把 DELETE 删除操作转化为 DROP TABLE/PARTITION 操作),主要是在设计时把流水或日志类的表按时间分表或者分区,这样在删除时,二进制日志内容就是一条 DROP TABLE/PARITION 的 SQL,写入速度就非常快了。
而第二点(把大事务拆分成小事务)也能控制二进制日志的大小。
MySQL 5.6版本以后,推荐使用“ROW”格式的二进制日志格式,因为它可以记录每一行数据的变化情况,从而避免了数据不一致的问题。
7、主从复制延迟优化
要彻底避免 MySQL 主从复制延迟,数据库版本至少要升级到 5.7,因为之前的MySQL 版本从机回放二进制都是单线程的(5.6 是基于库级别的单线程)。
使用并行复制,但是MySQL 的从机并行复制有两种模式。
-
COMMIT ORDER: 主机怎么并行,从机就怎么并行。
-
WRITESET: 基于每个事务,只要事务更新的记录不冲突,就可以并行。
在 WRITESET 模式下,主从复制几乎没有延迟,用它。
GTID是一种全局事务标识符,可以在主从库之间进行数据同步。使用GTID可以避免由于网络延迟等原因导致的数据不一致。
注意一个问题:mysql主从复制
8、mysql主从复制不同步的原因及如何处理?
方法一:适用于数据相差不大或不严格要求完全同步的情况
步骤说明:
- 检查Master和Slave状态:
- 登录到Master数据库,检查是否有大量的Sleep进程,以及复制状态是否正常。
- 登录到Slave数据库,使用
SHOW SLAVE STATUS\G
查看IO线程和SQL线程的状态,确认是否有错误或延迟。
- 跳过错误事件:
- 如果发现SQL线程停滞不前,可能是因为某个事件(如一个查询)在从库上执行失败。此时,可以尝试跳过这个错误事件。
- 执行
STOP SLAVE;
停止从库复制。 - 执行
SET GLOBAL sql_slave_skip_counter = 1;
跳过一个事件(注意,这可能会导致数据不一致,因此仅在不严格要求数据一致性的情况下使用)。 - 执行
START SLAVE;
重启复制。
- 再次检查Slave状态:
- 使用
SHOW SLAVE STATUS\G
检查IO线程和SQL线程是否都正常运行(Slave_IO_Running
和Slave_SQL_Running
都应为Yes
)。
- 使用
注意事项:
- 跳过事件可能会导致数据不一致,因此仅在不严格要求数据一致性的场景下使用。
- 跳过事件后,应尽快检查导致错误的原因,并考虑是否需要对数据进行手动修复。
方法二:适用于数据相差较大或要求数据完全统一的情况
步骤说明:
- 锁表并备份Master数据:
- 在Master上执行
FLUSH TABLES WITH READ LOCK;
来锁定所有表,防止在备份过程中有新数据写入。 - 使用
mysqldump
或其他工具备份数据库到文件(如mysql.bak.sql
)。
- 在Master上执行
- 记录Master的binlog位置和文件名:
- 执行
SHOW MASTER STATUS;
记录当前的binlog文件名和位置,这将用于在从库上设置复制起始点。
- 执行
- 传输备份文件到Slave:
- 使用
scp
或其他文件传输工具将备份文件传输到Slave服务器。
- 使用
- 停止Slave复制并导入数据:
- 在Slave上执行
STOP SLAVE;
停止复制。 - 导入备份文件到Slave数据库。
- 在Slave上执行
- 配置Slave的复制起始点:
- 使用
CHANGE MASTER TO
命令设置Slave的复制起始点,这里的文件名和位置应与Master上的SHOW MASTER STATUS;
输出相匹配。
- 使用
- 启动Slave复制:
- 执行
START SLAVE;
启动从库的复制。
- 执行
- 检查Slave状态:
- 使用
SHOW SLAVE STATUS\G
检查复制状态,确认IO线程和SQL线程都正常运行。
- 使用
注意事项:
- 在执行锁表操作之前,应确保没有长时间运行的事务正在执行,以免锁表时间过长影响业务。
- 备份和恢复数据可能会占用大量磁盘I/O和网络带宽,应在低峰时段进行。
- 配置复制起始点时,务必确保文件名和位置与Master上的实际情况一致,否则会导致复制失败。
- 导入数据后,可能需要一些时间来让Slave追赶Master的进度,特别是在数据量较大的情况下。
9、若主从版本不一致,从的版本一定要高于主,保证可以向下兼容
因为若主的版本更新,低版本的从无法兼容的。
10、mysql数据库用的是主从读写分离,主库写,从库读,假如从库无法读取了、或者从库读取特别慢,你会如何解决?
以解决问题为前提条件,先添加从库数量,临时把问题给解决,然后抓取slow log(慢查询) ,分析sql语句,该优化就优化处理。慢要不就是硬件跟不上,需要升级;要不就是软件需要调试优化,等问题解决在细化