高可用集群KEEPALIVED攻略

沐竹

已于 2024-08-20 15:19:07 修改

阅读量996

点赞数 28

文章标签：服务器 linux 运维

于 2024-08-18 21:34:58 首次发布

本文链接：https://blog.csdn.net/P1282791580/article/details/141305014

版权

一 .高可用集群

指通过一组计算机系统（节点）协同工作，以确保关键应用和服务在面临故障或异常情况时仍能持续运行，并保持较高的可用性和可靠性。

1.1 集群类型

LB ： Load Balance 负载均衡

LVS/HAProxy/nginx （ http/upstream, stream/upstream ）

HA ： High Availability 高可用集群

数据库、 Redis

SPoF: Single Point of Failure ，解决单点故障

HPC ： High Performance Computing 高性能集群

1.2 系统可用性

SLA ： Service-Level Agreement 服务等级协议（提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约）

A = MTBF / (MTBF+MTTR ）

指标： 99.9%, 99.99%, 99.999%,99.9999%

1.3 系统故障

硬件故障：设计缺陷、 wear out （损耗）、非人为不可抗拒因素

软件故障：设计缺陷 bug

1.4 实现高可用

提升系统高用性的解决方案：降低 MTTR- Mean Time To Repair( 平均故障时间 )

解决方案：建立冗余机制

active/passive 主 / 备

active/active 双主

active --> HEARTBEAT --> passive

active <--> HEARTBEAT <--> active

1.5.VRRP ： Virtual Router Redundancy Protocol

虚拟路由冗余协议 , 解决静态网关单点风险

物理层 : 路由器、三层交换机

软件层 :keepalived

1.5.1 VRRP 相关术语

虚拟路由器： Virtual Router

虚拟路由器标识： VRID(0-255) ，唯一标识虚拟路由器

VIP ： Virtual IP

VMAC ： Virutal MAC (00-00-5e-00-01-VRID)

物理路由器：

        master：主设备

        backup：备用设备

        priority：优先级

1.5.2 VRRP 相关技术

通告：心跳，优先级等；周期性

工作方式：抢占式，非抢占式

安全认证：

无认证

简单字符认证：预共享密钥

MD5

工作模式：

主/ 备：单虚拟路由器

主/ 主：主 / 备（虚拟路由器 1 ），备 / 主（虚拟路由器 2 ）

二 .Keepalived 部署

2.1 keepalived 简介

vrrp 协议的软件实现，原生设计目的为了高可用 ipvs 服务
官网： http://keepalived.org/
功能：
基于vrrp协议完成地址流动
为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)
为ipvs集群的各RS做健康状态检测
基于脚本调用接口完成脚本中定义的功能，进而影响集群事务，以此支持nginx、haproxy等服务

2.2 Keepalived 架构

官方文档：
https://keepalived.org/doc/
http://keepalived.org/documentation.html

用户空间核心组件：

vrrp stack ： VIP 消息通告

checkers ：监测 real server

system call ：实现 vrrp 协议状态转换时调用脚本的功能

SMTP ：邮件组件

IPVS wrapper ：生成 IPVS 规则

Netlink Reflector ：网络接口

WatchDog ：监控进程

控制组件：提供 keepalived.conf 的解析器，完成 Keepalived 配置

IO 复用器：针对网络目的而优化的自己的线程抽象

内存管理组件：为某些通用的内存管理功能（例如分配，重新分配，发布等）提供访问权限

2.3 Keepalived 环境准备

各节点时间必须同步： ntp, chrony

关闭防火墙及 SELinux

各节点之间可通过主机名互相通信：非必须

建议使用 /etc/hosts 文件实现：非必须

各节点之间的 root 用户可以基于密钥认证的 ssh 服务完成互相通信：非必须

2.4 Keepalived 相关文件

软件包名： keepalived

主程序文件： /usr/sbin/keepalived

主配置文件： /etc/keepalived/keepalived.conf

配置文件示例： /usr/share/doc/keepalived/

Unit File ： /lib/systemd/system/keepalived.service

Unit File 的环境配置文件： /etc/sysconfig/keepalived

RHEL7 中可能会遇到一下 bug

systemctl restart keepalived # 新配置可能无法生效

systemctl stop keepalived;systemctl start keepalived # 无法停止进程，需要 kill 停

止

2.5 安装软件

[root@ka1 ~]# dnf install keepalived -y

[root@ka1 ~]# systemctl start keepalived

2.6.1 配置虚拟路由

配置master:

vim /etc/keepalived/keepalived.conf

global_defs {
notification_email {
1282791580@qq.com #keepalived 发生故障切换时邮件发送的目标邮箱，可以按行区分写多个
}
notification_email_from keepalived@ka1.exam.org #发邮件的地址
smtp_server 127.0.0.1 #邮件服务器地址
smtp_connect_timeout 30 #邮件服务器连接timeout
router_id ka1.exam.org #每个keepalived主机唯一标识，多节点重名不影响

vrrp_skip_check_adv_addr #对所有通告报文都检查，会比较消耗性能
启用此配置后，如果收到的通告报文和上
一个报文是同一个路由器，则跳过检查，
默认值为全检查

#vrrp_strict #严格遵循vrrp协议
#启用此项后以下状况将无法启动服务:
1.无VIP地址
2.配置了单播邻居
3.在VRRP版本2中有IPv6地址
#建议不加此项配置

vrrp_garp_interval 0 #报文发送延迟，0表示不延迟
vrrp_gna_interval 0 #消息发送延迟
vrrp_mcast_group4 224.0.0.18 #指定组播IP地址范围：
}

配置slave:

vrrp_instance VI_1 {
state MASTER
interface ens32 #绑定为当前虚拟路由器使用的物理接口，如：eth0,可以和
VIP不在一个网卡

virtual_router_id 100 #每个虚拟路由器惟一标识,范围：0-255，每个虚拟路由器此
值必须唯一，否则服务无法启动
同属一个虚拟路由器的多个keepalived节点必须相同
务必要确认在同一网络中此值必须唯一

priority 100 #当前物理节点在此虚拟路由器的优先级，范围：1-254
值越大优先级越高,每个keepalived主机节点此值不同

advert_int 1 #vrrp通告的时间间隔，默认1s
authentication { #认证机制
auth_type PASS #PASS为简单密码(建议使用)
auth_pass 1111 #预共享密钥，仅前8位有效
同一个虚拟路由器的多个keepalived节点必须一样
}
virtual_ipaddress { #虚拟IP,生产环境可能指定上百个IP地址

172.25.250.100/24 dev ens32 label ens32:1 #<IPADDR> dev <STRING> scope <SCOPE>
label <LABEL>
#指定VIP，不指定网卡，默认为eth0,注意：不指
定/prefix,默认32
}
}

keepalived配置文件中配置虚拟路由

ka1和ka2中安装软件包：
yum install keepalived -y

默认为抢占模式：
vim /etc/keepalived/keepalived.conf
配置全局参数：
global_defs {
notification_email {
1282791580@qq.com
}
notification_email_from keepalived@ka1.exam.org
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id ka1.exam.org
vrrp_skip_check_adv_addr
vrrp_strict
vrrp_garp_interval 0
vrrp_gna_interval 0
vrrp_mcast_group4 224.0.0.18
}

配置vip：
vrrp_instance VI_1 {
state MASTER
interface ens32
virtual_router_id 100
priority 100
advert_int 1
nopreempt
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

systemctl start keepalived.service

ka2:

vrrp_instance VI_1 {
state BACKUP ------ 改为BACKUP
interface ens32
virtual_router_id 100
priority 80 ------ 改的比ka1低一些
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}

virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

实现独立子配置文件:

vim /etc/keepalived/keepalived.conf
把虚拟路由注释掉：
#vrrp_instance VI_1 {
# state MASTER
# interface ens32
# virtual_router_id 100
# priority 100
# advert_int 1
# authentication {
# auth_type PASS
# auth_pass 1111
# }
# virtual_ipaddress {
# 172.25.254.10/24 dev ens32 label ens32:1
# }
#}
加上
include "/etc/keepalived/conf.d/*.conf"

vim /etc/keepalived/conf.d/172.25.254.10.conf

vrrp_instance VI_1 {
state MASTER
interface ens32
virtual_router_id 100
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

systemctl restart keepalived.service

三.Keepalived 应用示例

实现master/slave的 Keepalived 单主架构:

配置MASTER

[root@ka1 ~]# vim /etc/keepalived/keepalived.conf

global_defs {
notification_email {
1282791580@qq.com
}
notification_email_from keepalived@ka1.exam.org
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id ka1.exam.org
vrrp_skip_check_adv_addr
#vrrp_strict
vrrp_garp_interval 0
vrrp_gna_interval 0
#vrrp_mcast_group4 224.0.0.18
#vrrp_iptables
}

vrrp_instance VI_1 {
state MASTER
interface ens32
virtual_router_id 100
priority 100
advert_int 1
#preempt_delay 5s
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

配置BACKUP

[root@ka2 ~]# vim /etc/keepalived/keepalived.conf

global_defs {
notification_email {
1282791580@qq.com
}
notification_email_from keepalived@ka2.exam.org
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id ka2.exam.org
vrrp_skip_check_adv_addr
#vrrp_strict
vrrp_garp_interval 0
vrrp_gna_interval 0
vrrp_mcast_group 224.0.0.18
#vrrp_iptables
}

vrrp_instance VI_1 {
state BACKUP
interface ens32
virtual_router_id 100
priority 80
advert_int 1
#preempt_delay 5s
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

查看：tcpdump -i eth0 -nn host 224.0.0.18

抢占模式和非抢占模式

非抢占模式nopreempt:

默认为抢占模式 preempt ，即当高优先级的主机恢复在线后，会抢占低先级的主机的 master 角色，

这样会使 vip 在 KA 主机中来回漂移，造成网络抖动，

建议设置为非抢占模式 nopreempt ，即高优先级主机恢复后，并不会抢占低优先级主机的 master 角色

非抢占模块下 , 如果原主机 down 机 , VIP 迁移至的新主机 , 后续也发生 down 时 , 仍会将 VIP 迁移回原主机

ka1和ka2一样：
vim /etc/keepalived/keepalived.conf

vrrp_instance VI_1 {
state BACKUP ---- 也得设置为BACKUP，两台都为备机
interface ens32
virtual_router_id 100
priority 100
advert_int 1
nopreempt ------- 加上这个参数
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
}

抢占延迟模式 preempt_delay

抢占延迟模式，即优先级高的主机恢复后，不会立即抢回 VIP ，而是延迟一段时间（默认 300s ）再抢回 VIP

ka1主机上：ka2也一样
vim /etc/keepalived/keepalived.conf

vrrp_instance VI_1 {
state BACKUP
interface ens32
virtual_router_id 100
priority 100
advert_int 1
preempt_delay 5s ---- 抢占延时为5s，一般设定一分钟，五分钟，这里演示。
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}

vip单播模式

ka1主机上：ka2也一样
vim /etc/keepalived/keepalived.conf

vrrp_instance VI_1 {
state BACKUP
interface ens32
virtual_router_id 100
priority 80
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
unicast_src_ip 172.25.254.10 ---- 指定谁到谁 ka2上相反
unicast_peer {
172.25.254.20 -----ka2上相反
}

查看： tcpdump -i eth0 -nn src host 172.25.254.10 and dst 172.25.254.20

实现keepalived的双主架构 master/master

master/slave的单主架构，同一时间只有一个Keepalived 对外提供服务，此主机繁忙，而另一台主机却很空闲，利用率低下，可以使用master/master 的双主架构，解决此问题。
master/master 的双主架构：
即将两个或以上VIP分别运行在不同的 keepalived 服务器，以实现服务器并行提供 web 访问的目的，提高服务器资源利用率

ka1和ka2上都加上，都有一个主备
vim /etc/keepalived/keepalived.conf

vrrp_instance VI_2 {
state MASTWE
interface ens32
virtual_router_id 200
priority 80 ----- 优先级不能一样
advert_int 1
#preempt_delay 5s
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.200/24 dev ens32 label ens32:2
}
unicast_src_ip 172.25.254.10
unicast_peer {
172.25.254.20
}
}

实现IPVS的高可用性（DR模式）

应用层监测

应用层检测： HTTP_GET|SSL_GET

HTTP_GET|SSL_GET {
url {
path <URL_PATH> #-----------定义要监控的URL
status_code <INT> #---------判断上述检测机制为健康状态的响应码，一般为 200
}
connect_timeout <INTEGER> #---------客户端请求的超时时长, 相当于haproxy的timeout server
nb_get_retry <INT> #---------重试次数
delay_before_retry <INT> #---------重试之前的延迟时长
connect_ip <IP ADDRESS> #---------向当前RS哪个IP地址发起健康状态检测请求
connect_port <PORT> #--------向当前RS的哪个PORT发起健康状态检测请求
bindto <IP ADDRESS> #---------向当前RS发出健康状态检测请求时使用的源地址
bind_port <PORT> #----------向当前RS发出健康状态检测请求时使用的源端口
}

TCP监测

TCP_CHECK {
connect_ip <IP ADDRESS> #----------向当前RS的哪个IP地址发起健康状态检测请求
connect_port <PORT> #---------向当前RS的哪个PORT发起健康状态检测请求
bindto <IP ADDRESS> #--------发出健康状态检测请求时使用的源地址
bind_port <PORT> #---------发出健康状态检测请求时使用的源端口
connect_timeout <INTEGER> #------客户端请求的超时时长
#-------等于haproxy的timeout server
}

实现单主的 LVS-DR 模式

设定vip：
vim /etc/sysconfig/network-scripts/ifcfg-lo

加上：
IPADDR1=172.25.254.100
NETMASK1=255.255.255.255
NETWORK=127.0.0.0

这里我们给上临时的就行：
reslserver1和2上面给上vip（临时）
ip a a 172.25.254.100 dev lo

解决响应问题：
查看arp:
sysctl -a | grep arp

ka1上面
vim /etc/sysctl.d/arp.conf
net.ipv4.conf.all.arp_ignore=1
net.ipv4.conf.all.arp_announce=2
net.ipv4.conf.lo.arp_announce=2
net.ipv4.conf.lo.arp_ignore=1

用scp命令写到ka2上面：
scp /etc/sysctl.d/arp.conf root@172.25.254.110:/etc/sysctl.d/arp.conf

ka1和ka2上面安装ipvsadm 用来查看策略：
yum install ipvsadm -y

ka1和ka2一样：
vim /etc/keepalived/keepalived.conf

virtual_server 172.25.254.100 80 {
delay_loop 6
lb_algo wrr
lb_kind DR
#persistence_timeout 50
protocol TCP

real_server 172.25.254.110 80 {
weight 1
HTTP_GET {
url {
path /
status_code 200
}
connect_timeout 3
nb_get_retry 2
delay_before_retry 2
}
}
real_server 172.25.254.120 80 {
weight 1
HTTP_GET {
url {
path /
status_code 200
}
connect_timeout 3
nb_get_retry 2
delay_before_retry 2
}
}
}

ssytemctl restart keepalived.service

查看：ipvsadm -Ln

vrrp Script 配置脚本控制vip

利用脚本实现主从角色切换

[root@ka1 ~]# vim /etc/keepalived/test.sh
#!/bin/bash
[ ! -f /mnt/pu] ---- 取反

chmod +x /etc/keepalived/test.sh ---- 给上可执行权限

[root@ka1 ~]# vim /etc/keepalived/keepalived.conf

vrrp_script check {
script "/etc/keepalived/test.sh" ------shell命令或脚本的路径
interval 1 ------ 检测的间隔时间，默认为1s
weight -30 ------ 默认为零，这里测试设置-30，当运行脚本检测到之后，为非0，就会与VIP的优先级相加，优先降低，实现VIP飘移，为0时就VIP就按兵不动。
fall 2 ------ 脚本连续几次都执行失败，则转换为失败，建议设置为2以上
rise 2 ------ 执行脚本连续几次都成功，把服务器标记为成功
timeout 2 ------ 设置的超时时间。
}

vrrp_instance VI_1 {
state MASTER
interface ens32
virtual_router_id 100
priority 100
advert_int 1
#preempt_delay 5s
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
unicast_src_ip 172.25.254.10
unicast_peer {
172.25.254.20
}
track_script { ------ 调用这个script配置参数
check
}
}

systemctl restart keepalived.service

sh /etc/keepalived/test.sh
echo $?

0
此时/mnt底下没有pu这个文件，运行脚本输出0，VIP就不动

如果在/mnt底下创建pu这个文件，输出为非0，然后执行脚本，此时vip飘到ka2上面

touch /mnt/pu
sh /etc/keepalived/test.sh
echo $?

1

keepalived-haproxy实现高可用：

还原

两台ka1和ka2上安装haproxy
yum install haproxy -y

[root@realserver1 ~]# ip a d 172.25.254.100/32 dev lo
[root@realserver2 ~]# ip a d 172.25.254.100/32 dev lo

arp响应：
[root@realserver1 ~]# vim /etc/sysctl.d/arp.conf
[root@realserver2 ~]# vim /etc/sysctl.d/arp.conf

net.ipv4.conf.all.arp_ignore=0
net.ipv4.conf.all.arp_announce=0
net.ipv4.conf.lo.arp_announce=0
net.ipv4.conf.lo.arp_ignore=0

sysctl --system ---- 查看

ka1和ka2上都开启内核路由：
[root@ka1 ~]# vim /etc/sysctl.conf
[root@ka2 ~]# vim /etc/sysctl.conf

et.ipv4.ip_nonlocal_bind=1 ---- 两台都开启内核路由

sysctl -p ----- 刷新一下

记住要把之前做的LVS给注释掉，lvs和haproxy不能同时使用
[root@ka1 ~]# vim /etc/haproxy/haproxy.cfg
[root@ka2 ~]# vim /etc/haproxy/haproxy.cfg

listen webcluster
bind 172.25.254.100:80
mode http
balance roundrobin
server web1 172.25.254.110:80 check inter 3 fall 2 rise 5
server web1 172.25.254.120:80 check inter 3 fall 2 rise 5

实现haproxy高可用

检测haproxy的存活状态：
killall -0 haproxy

写入脚本：
[root@ks2 ~]# vim /etc/keepalived/test.sh
#!/bin/bash
killall -0 haproxy

[root@ka1 ~]# vim /etc/keepalived/keepalived.conf
[root@ka2~]# vim /etc/keepalived/keepalived.conf

vrrp_script check_haproxy {
script "/etc/keepalived/test.sh"
interval 1
weight -30
fall 2
rise 2
timeout 2
}

vrrp_instance VI_1 {
state MASTER
interface ens32
virtual_router_id 100
priority 100
advert_int 1
#preempt_delay 5s
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.25.254.100/24 dev ens32 label ens32:1
}
unicast_src_ip 172.25.254.10
unicast_peer {
172.25.254.20
}
   track_script {
        check_haproxy
   }
}

systemctl restart keepalived.service