keepalived使用原因:为解决单点故障 实现高可用
高可用群集(HA)
高可用集群是由一台主调度器和一台或多台备用调度器。在主调度器能够正常运转时,由主调度器进行节点服务器业务的分配处理,其余备用调度器处于待机状态,不参与当前的集群运转。当主调度器出现故障无法运转时,此时备用调度器会由优先级最高的调度承担主调度器的工作,而出现故障的主调调度器便会退出当前工作,由人工维修后返回集群。
Keepalived及其工作原理
Keepalived 是一个基于VRRP协议来实现的LVS服务高可用方案,可以解决静态路由出现的单点故障问题。
在一个LVS服务集群中通常有主服务器(MASTER)和备份服务器(BACKUP)两种角色的服务器,但是对外表现为一个虚拟IP,主服务器会发送VRRP通告信息给备份服务器,当备份服务器收不到VRRP消息的时候,即主服务器异常的时候,备份服务器就会接管虚拟IP,继续提供服务,从而保证了高可用性。
Keepalived体系主要模块及其作用:
keepalived体系架构中主要有三个模块,分别是core、check和vrrp。
●core模块:为keepalived的核心,负责主进程的启动、维护及全局配置文件的加载和解析。
●vrrp模块:是来实现VRRP协议的。
●check模块:负责健康检查,常见的方式有端口检查及URL检查。
LVS+Keepalived 高可用群集
主DR 服务器:192.168.80.10
备DR 服务器:192.168.80.11
Web 服务器1:192.168.80.12
Web 服务器2:192.168.80.13
vip:192.168.80.188
客户端:192.168.80.200
--------------LVS 部署--------------
1.配置负载调度器(主、备相同)
systemctl stop firewalld.service
setenforce 0
yum -y install ipvsadm keepalived
modprobe ip_vs
cat /proc/net/ip_vs
(1)配置keeplived(主、备DR 服务器上都要设置)
cd /etc/keepalived/
cp keepalived.conf keepalived.conf.bak
vim keepalived.conf
......
global_defs { #定义全局参数
--10行--修改,邮件服务指向本地
smtp_server 127.0.0.1
--12行--修改,指定服务器(路由器)的名称,主备服务器名称须不同,主为LVS_01,备为LVS_02
router_id LVS_01
--14行--注释掉,取消严格遵守VRRP协议功能,否则VIP无法被连接
#vrrp_strict
}
vrrp_instance VI_1 { #定义VRRP热备实例参数
--20行--修改,指定热备状态,主为MASTER,备为BACKUP
state MASTER
--21行--修改,指定承载vip地址的物理接口
interface ens33
--22行--修改,指定虚拟路由器的ID号,每个热备组保持一致
virtual_router_id 10
#nopreempt #如果设置非抢占模式,两个节点state必须为bakcup,并加上配置 nopreempt
--23行--修改,指定优先级,数值越大优先级越高,这里设置主为100,备为90
priority 100
advert_int 1 #通告间隔秒数(心跳频率)
authentication { #定义认证信息,每个热备组保持一致
auth_type PASS #认证类型
--27行--修改,指定验证密码,主备服务器保持一致
auth_pass abc123
}
virtual_ipaddress { #指定群集vip地址
192.168.80.188
}
}
--36行--修改,指定虚拟服务器地址(VIP)、端口,定义虚拟服务器和Web服务器池参数
virtual_server 192.168.80.188 80 {
delay_loop 6 #健康检查的间隔时间(秒)
lb_algo rr #指定调度算法,轮询(rr)
--39行--修改,指定群集工作模式,直接路由(DR)
lb_kind DR
persistence_timeout 0 #连接保持时间(秒)
protocol TCP #应用服务采用的是 TCP协议
--43行--修改,指定第一个Web节点的地址、端口
real_server 192.168.80.12 80 {
weight 1 #节点的权重
--45行--删除,添加以下健康检查方式
TCP_CHECK {
connect_port 80 #添加检查的目标端口
connect_timeout 3 #添加连接超时(秒)
nb_get_retry 3 #添加重试次数
delay_before_retry 3 #添加重试间隔
}
}
real_server 192.168.80.13 80 { #添加第二个 Web节点的地址、端口
weight 1
TCP_CHECK {
connect_port 80
connect_timeout 3
nb_get_retry 3
delay_before_retry 3
}
}
##删除后面多余的配置##
}
systemctl start keepalived
ip addr #查看虚拟网卡vip
(2)启动 ipvsadm 服务
--192.168.80.10---
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
ipvsadm -ln
#如没有VIP 的分发策略,则重启 keepalived 服务,systemctl restart keepalived
--192.168.80.11---
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
ipvsadm -ln
(3)调整 proc 响应参数,关闭Linux 内核的重定向参数响应
vim /etc/sysctl.conf
net.ipv4.conf.all.send_redirects = 0
net.ipv4.conf.default.send_redirects = 0
net.ipv4.conf.ens33.send_redirects = 0
sysctl -p
2.配置节点服务器
systemctl stop firewalld
setenforce 0
yum -y install httpd
systemctl start httpd
--192.168.80.100---
echo 'this is kgc web!' > /var/www/html/index.html
--192.168.80.101---
echo 'this is benet web!' > /var/www/html/index.html
vim /etc/sysconfig/network-scripts/ifcfg-lo:0
DEVICE=lo:0
ONBOOT=yes
IPADDR=192.168.80.188
NETMASK=255.255.255.255
service network restart 或 systemctl restart network
ifup lo:0
ifconfig lo:0
route add -host 192.168.80.188 dev lo:0
vim /etc/sysctl.conf
net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2
sysctl -p
3.测试验证
在客户端访问 http://192.168.80.188/
再在主服务器关闭 keepalived 服务后再测试, systemctl stop keepalived
Keepalived通过什么判断哪台主机为主服务器,通过什么方式配置浮动IP?
答案:
Keepalived首先做初始化先检查state状态,master为主服务器,backup为备服务器。
然后再对比所有服务器的priority,谁的优先级高谁是最终的主服务器。
优先级高的服务器会通过ip命令为自己的电脑配置一个提前定义好的浮动IP地址。
keepalived的抢占与非抢占模式
抢占模式即MASTER从故障中恢复后,会将VIP从BACKUP节点中抢占过来。非抢占模式即MASTER恢复后不抢占BACKUP升级为MASTER后的VIP
非抢占式俩节点state必须为bakcup,且必须配置nopreempt。
注意:这样配置后,我们要注意启动服务的顺序,优先启动的获取master权限,与优先级没有关系了。
keepalived
基于什么协议?
VRRP
怎么选举master?
通过 keepalived.conf配置文件下 state设置主备 priority 设置优先级数值越低优先级越高
怎么生成VIP?
VIP(虚拟 IP 地址)使用参数virtual_ipaddress 指定vip集群。virtual_server 指定虚拟VIIP。是在主节点上配置的,在主节点上提供服务时,VIP 会指向该节点。当主节点故障时,备用节点会接管 VIP 并继续提供服务。在 Keepalived 中,VIP 的生成方式取决于是否使用抢占模式:
怎么故障切换?
在一个LVS服务集群中通常有主服务器(MASTER)和备份服务器(BACKUP)两种角色的服务器,但是对外表现为一个虚拟IP(VIP),主服务器会发送VRRP通告信息给备份服务器,当备份服务器收不到VRRP消息的时候,即主服务器异常的时候,备份服务器就会接管虚拟IP,继续提供服务,从而保证了高可用性。(主备服务器之间由优先级决定,优先级更高的充当主服务器,优先级低的成为备份服务器。)
抢占模式和非抢占模式是如何做的?
抢占模式: 主state设置为master,备state设为backup 。不设置nopreempt。当主节点从故障中恢复后,它会尝试抢占 VIP,即使此时备用节点正在提供服务。这样可以确保主节点恢复后可以立即重新担任主节点并提供服务。
非抢占模式: 如果设置非抢占模式,两个节点state必须为bakcup,并加上配置 nopreempt。如果使用非抢占模式,在主节点恢复后,它不会尝试抢占 VIP。这意味着备用节点将继续提供服务,直到管理员手动干预将 VIP 切换回主节点。
脑裂现象如何?
在"双机热备"高可用(HA)系统中,当联系两个节点的"心跳线"断开时(即两个节点断开联系时),本来为一个整体、动作协调的HA系统,就分裂成为两个独立的节点(即两个独立的个体)。由于相互失去了联系,都以为是对方出了故障,此时备用调度器会运转起来争做主调度器的工作,而主调度器依然保持着调度工作,两个调度的同时运转导致整个系统的紊乱。就会发生严重后果:(1)共享资源被瓜分、两边"服务"都起不来了.(2)或者两边"服务"都起来了,但同时读写"共享存储",导致数据损坏(常见如数据库轮询着的联机日志出错)。
产生脑裂的原因?
产生脑裂的常见原因
硬件原因:
1. 高可用服务器各节点之间心跳线链路发生故障,导致无法正常通信。
2. 因心跳线坏了(包括断了,老化)。
3. 因网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)。
4. 因心跳线间连接的设备故障(网卡及交换机)。
5. 因仲裁的机器出问题(采用仲裁的方案)。
运用配置原因:
6. 高可用服务器上开启了iptables防火墙阻挡了心跳消息传输。
7. 高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败。
8. 其他服务配置不当等原因,如心跳方式不同,心跳广插冲突、软件Bug等
9. Keepalived配置里同一VRRP实例如果virtual_router_id两端参数配置不一致也会导致裂脑问题发生。
脑裂的解决方法?
直接断开主 ,将备转换为主。
然后检查修复,恢复数据实现同步。修复线路
脑裂的预防方案?
方式一:添加冗余的心跳线
添加冗余的心跳线支持HA多线路的进行,在多线路的加持下,一条线路故障后,也会有其余的线路也可传输心跳信息,让主备调度器继续保持正常运转。此方案可减少脑裂产生的概率。
方式二:脚本配合周期任务计划检测,调度器自我裁决
脑裂分析:产生脑裂的最主要最常见的原因是备调度器接收不到主调度器的的心跳信息。首先调度器大多数情况下都会是在统一局域网中,是通过网络来进行心跳信息的传送。所以心跳信息的检测可以基于icmp协议来进行检测
方式三:第三方工具,监控软件
利用主流的监控软件,例如zabbix。当两个节点出现分歧时,由第3方的仲裁者决定听谁的。这个仲裁者,可能是一个锁服务,一个共享盘或者其它什么东西。例如设置参考IP(如网关IP),当心跳线完全断开时,2个节点都各自ping一下参考IP,不通则表明断点就出在本端。不仅"心跳"、还兼对外"服务"的本端网络链路断了,即使启动(或继续)应用服务也没有用了,那就主动放弃竞争,让能够ping通参考IP的一端去起服务。更保险一些,ping不通参考IP的一方干脆就自我重启,以彻底释放有可能还占用着的那些共享资源。
方式四:启用磁盘锁
正在服务一方锁住共享磁盘,"裂脑"发生时,让对方完全"抢不走"共享磁盘资源。但使用锁磁盘也会有一个不小的问题,如果占用共享盘的一方不主动"解锁",另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃,就不可能执行解锁命令。后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了"智能"锁。即:正在服务的一方只在发现心跳线全部断开(察觉不到对端)时才启用磁盘锁。平时就不上锁了。
如何健康检查调度器和节点服务器?
**健康检查调度器:**
1. **心跳检查:** 在高可用集群中,使用心跳检查来验证调度器的状态。通过发送和接收心跳信号,可以确定调度器是否处于活动状态。
2. **端口检查:** 检查调度器的关键端口是否可用。例如,HTTP、HTTPS、SSH等端口是否正常响应。
3. **服务检查:** 确保调度器正在运行的服务和进程是否处于正常状态。监控关键服务的运行状况,如 Keepalived、HAProxy、Nginx 等。
4. **负载检查:** 监控调度器的负载情况,包括 CPU、内存和磁盘使用率等。如果负载过高,可能会影响系统的性能和可用性。
**健康检查节点服务器:**
1. **心跳检查:** 对节点服务器进行心跳检查,确保它们能够相互通信。如果节点之间无法正常通信,可能会导致脑裂问题。
2. **Ping 测试:** 使用 ICMP 协议进行 ping 测试,以确保节点服务器之间的连通性。如果 ping 测试失败,可能表示网络连接有问题。
3. **服务检查:** 检查节点服务器上运行的关键服务是否正常工作。例如,数据库、应用程序服务、Web 服务器等是否处于可用状态。
4. **日志监控:** 定期检查节点服务器的日志文件,以查找异常和错误信息。日志可以提供关于系统运行状况的重要信息。
5. **硬件监控:** 使用硬件监控工具来检查节点服务器的硬件状态,包括温度、风扇速度、磁盘健康状态等。
6. **资源利用率:** 监控节点服务器的资源利用率,包括 CPU、内存、磁盘空间等。过高的利用率可能会导致性能问题。
7. **安全性检查:** 确保节点服务器上的安全措施得到正确配置和执行,包括防火墙、漏洞修复等。