KEEPALIVED-CSDN博客

vrrp 协议的软件实现，原生设计目的为了高可用 ipvs服务
官网：
http://keepalived.org/
功能：
        基于vrrp协议完成地址流动
        为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)
        为ipvs集群的各RS做健康状态检测
        基于脚本调用接口完成脚本中定义的功能，进而影响集群事务，以此支持nginx、haproxy等服务

2.2 Keepalived 架构

官方文档： https://keepalived.org/doc/

http://keepalived.org/documentation.html

用户空间核心组件：
        vrrp stack：VIP消息通告
        checkers：监测real server
        system call：实现 vrrp 协议状态转换时调用脚本的功能
        SMTP：邮件组件
        IPVS wrapper：生成IPVS规则
        Netlink Reflector：网络接口
        WatchDog：监控进程
控制组件：提供keepalived.conf 的解析器，完成Keepalived配置
IO复用器：针对网络目的而优化的自己的线程抽象
内存管理组件：为某些通用的内存管理功能（例如分配，重新分配，发布等）提供访问权限

2.3 Keepalived 环境准备

server1和server2 上安装并配置httpd

测试

各节点时间必须同步：ntp, chrony

关闭防火墙及SELinux

各节点之间可通过主机名互相通信：非必须

建议使用/etc/hosts文件实现：非必须

各节点之间的root用户可以基于密钥认证的ssh服务完成互相通信：非必须

2.4 Keepalived 相关文件

软件包名：keepalived
主程序文件：/usr/sbin/keepalived
主配置文件：/etc/keepalived/keepalived.conf
配置文件示例：/usr/share/doc/keepalived/
Unit File：/lib/systemd/system/keepalived.service
Unit File的环境配置文件：/etc/sysconfig/keepalived

2.5 Keepalived 安装

安装 keepalived

2.6 KeepAlived 配置说明

2.6.1 配置文件组成部分

配置文件：/etc/keepalived/keepalived.conf
配置文件组成
GLOBAL CONFIGURATION
Global definitions：定义邮件配置，route_id，vrrp配置，多播地址等
VRRP CONFIGURATION
VRRP instance(s)：定义每个vrrp虚拟路由器
LVS CONFIGURATION
Virtual server group(s)
Virtual server(s)： LVS集群的VS和RS

2.6.2 配置语法说明

帮助

man keepalived.conf

2.6.2.1 全局配置

global_defs {
notification_email {
2440468291@qq.com #发生故障切换时放松目标邮箱，可以按行区分写多个
}
notification_email_from keepalived@timinglee.org #发送的地址
smtp_server 127.0.0.1 #邮件服务器的地址
smtp_connect_timeout 30                       #邮件服务器链接timeout
router_id ka1.timinglee.org
vrrp_skip_check_adv_addr #对所有通告报文都检查，比较消耗性能
#启用此配置后，如果收到的通告报文和上一个路由器一样，则跳过检查，默认为全检查
vrrp_strict                #严格遵循vrrp协议
                                            #启用此项后以下状况将无法启动服务:
                                            #1.无VIP地址
#2.配置了单播邻居
#3.在VRRP版本2中有IPv6地址
#建议不加此项配置
vrrp_garp_interval 0                    #报文发送延迟，0表示不延迟
vrrp_gna_interval 0                       #消息发送延迟
vrrp_mcast_group4 224.0.0.18               #指定组播IP地址范围：
}

2.6.2.2 配置虚拟路由器

配置文件：/etc/keepalived/keepalived.conf

KA1

使用ifconfig查看是否启动成功

可以讲配置文件复到另一台机子中再进行更改

KA2

抓包测试

2.6.2.3 启用keepalived日志功能

先更改/etc/sysconfig/keepalived 文件

更改的范围为0-7

再设置/etc/rsyslog.conf

测试

2.6.2.4 实现独立子配置文件

当生产环境复杂时， /etc/keepalived/keepalived.conf 文件中内容过多，不易管理将不同集群的配置，比如：不同集群的VIP配置放在独立的子配置文件中利用include 指令可以实现包含子配置文件

格式 include /path/file

三.Keepalived 企业应用示例

3.1 抢占模式和非抢占模式

3.1.1 非抢占模式 nopreempt

默认为抢占模式preempt，即当高优先级的主机恢复在线后，会抢占低先级的主机的master角色，这样会使vip在KA主机中来回漂移，造成网络抖动，建议设置为非抢占模式 nopreempt ，即高优先级主机恢复后，并不会抢占低优先级主机的master角色非抢占模块下,如果原主机down机, VIP迁移至的新主机, 后续也发生down时,仍会将VIP迁移回原主机

注意：要关闭 VIP抢占，必须将各 keepalived 服务器state配置为BACKUP 优先级无需更改

主备相同

3.1.2 抢占延迟模式 preempt_delay

主备相同任然是BACKUP 删除nopreempt

3.2 VIP单播配置

默认keepalived主机之间利用多播相互通告消息，会造成网络拥塞，可以替换成单播，减少网络流量
注意：启用 vrrp_strict 时，不能启用单播

KA1

KA2

测试

3.3Keepalived 通知脚本配置

当keepalived的状态变化时，可以自动触发脚本的执行，比如：发邮件通知用户
默认以用户keepalived_script身份执行脚本
如果此用户不存在，以root执行脚本可以用下面指令指定脚本执行用户的身份

3.3.1 通知脚本类型

当前节点成为主节点时触发的脚本
notify_master <STRING>|<QUOTED-STRING>

当前节点转为备节点时触发的脚本
notify_backup <STRING>|<QUOTED-STRING>

当前节点转为“失败”状态时触发的脚本
notify_fault <STRING>|<QUOTED-STRING>

通用格式的通知触发机制，一个脚本可完成以上三种状态的转换时的通知
notify <STRING>|<QUOTED-STRING>

当停止VRRP时触发的脚本
notify_stop <STRING>|<QUOTED-STRING>

3.3.2 脚本的调用方法

在 vrrp_instance VI_1 语句块的末尾加下面行

notify_master "/etc/keepalived/notify.sh master"

notify_backup "/etc/keepalived/notify.sh backup"

notify_fault "/etc/keepalived/notify.sh fault"

3.3.3 创建通知脚本

vim /etc/keepalived/mail.sh

需要执行权限

chmod +x /etc/keepalived/mail.sh

3.3.4 邮件配置

安装邮件发送工具

yum install mailx -y

邮箱配置 vim /etc/mail.rc

测试

[root@ka1 ~]# echo test message |mail -s test 1742470956@qq.com

3.4 实现 master/master 的 Keepalived 双主架构

master/slave的单主架构，同一时间只有一个Keepalived对外提供服务，此主机繁忙，而另一台主机却很空闲，利用率低下，可以使用master/master的双主架构，解决此问题。

master/master 的双主架构：

即将两个或以上VIP分别运行在不同的keepalived服务器，以实现服务器并行提供web访问的目的，提高服务器资源利用率

KA1

KA2

测试

3.5 实现IPVS的高可用性

3.5.1 IPVS相关配置

3.5.1.1 虚拟服务器配置结构

virtual_server IP port {
...
real_server {
...
}
real_server {
...
}
…
}

3.5.1.2 virtual server （虚拟服务器）的定义格式

virtual_server IP port                         #定义虚拟主机IP地址及其端口
virtual_server fwmark int                   #ipvs的防火墙打标，实现基于防火墙的负载均衡集群
virtual_server group string                #使用虚拟服务器组

3.5.1.3 虚拟服务器配置

virtual_server IP port {                                                                 #VIP和PORT
delay_loop <INT>                                                                        #检查后端服务器的时间间隔
lb_algo rr|wrr|lc|wlc|lblc|sh|dh #定义调度方法
lb_kind NAT|DR|TUN                                                                  #集群的类型,注意要大写
persistence_timeout <INT>                                                         #持久连接时长
protocol TCP|UDP|SCTP                                                            #指定服务协议,一般为TCP
sorry_server <IPADDR> <PORT>                                               #所有RS故障时，备用服务器地址
real_server <IPADDR> <PORT> {                                               #RS的IP和PORT
weight <INT>                                                                               #RS权重
notify_up <STRING>|<QUOTED-STRING>                                #RS上线通知脚本
notify_down <STRING>|<QUOTED-STRING>                           #RS下线通知脚本
HTTP_GET|SSL_GET|TCP_CHECK|SMTP_CHECK|MISC_CHECK { ... } #定义当前主机健康状
态检测方法
}
}
#注意:括号必须分行写,两个括号写在同一行,如: }} 会出错

3.5.1.4 应用层监测

应用层检测：HTTP_GET|SSL_GET

HTTP_GET|SSL_GET {
url {
path <URL_PATH>                                #定义要监控的URL
status_code <INT>   #判断上述检测机制为健康状态的响应码，一般为 200
}
connect_timeout <INTEGER> #客户端请求的超时时长, 相当于haproxy的timeout server
nb_get_retry <INT>                              #重试次数
delay_before_retry <INT>                    #重试之前的延迟时长
connect_ip <IP ADDRESS>                 #向当前RS哪个IP地址发起健康状态检测请求
connect_port <PORT>                         #向当前RS的哪个PORT发起健康状态检测请求
bindto <IP ADDRESS>                         #向当前RS发出健康状态检测请求时使用的源地址
bind_port <PORT>                               #向当前RS发出健康状态检测请求时使用的源端口
}

3.5.1.5 TCP监测

传输层检测：TCP_CHECK

TCP_CHECK {
connect_ip <IP ADDRESS>                         #向当前RS的哪个IP地址发起健康状态检测请求
connect_port <PORT>                                 #向当前RS的哪个PORT发起健康状态检测请求
bindto <IP ADDRESS>                                 #发出健康状态检测请求时使用的源地址
bind_port <PORT>                                       #发出健康状态检测请求时使用的源端口
connect_timeout <INTEGER>                    #客户端请求的超时时长
#等于haproxy的timeout server
}

3.5.2 实战案例

3.5.2.1 实战案例： LVS-DR 模式

安装ipvsamd方便监控 yum install ipvsadm -y

准备web服务器并使用脚本绑定VIP至web服务器lo网卡

KA1和KA2

测试

3.6实现其它应用的高可用性 VRRP Script

keepalived利用 VRRP Script 技术，可以调用外部的辅助脚本进行资源监控，并根据监控的结果实现优先动态调整，从而实现其它应用的高可用性功能
参考配置件：/usr/share/doc/keepalived/keepalived.conf.vrrp.localcheck

3.6.1 VRRP Script 配置

分两步实现：
1.定义脚本
vrrp_script：自定义资源监控脚本，vrrp实例根据脚本返回值，公共定义，可被多个实例调用，定义在vrrp实例之外的独立配置块，一般放在global_defs设置块之后。
通常此脚本用于监控指定应用的状态。一旦发现应用的状态异常，则触发对MASTER节点的权重减至低于SLAVE节点，从而实现 VIP 切换到 SLAVE 节点

vrrp_script <SCRIPT_NAME> {
script <STRING>|<QUOTED-STRING> #此脚本返回值为非0时，会触发下面OPTIONS执行
OPTIONS
}

2.调用脚本
track_script：调用vrrp_script定义的脚本去监控资源，定义在VRRP实例之内，调用事先定义的

vrrp_script

track_script {
SCRIPT_NAME_1
SCRIPT_NAME_2
}

3.6.1.1 定义 VRRP script

vrrp_script <SCRIPT_NAME> {                         #定义一个检测脚本，在global_defs 之外配置
script <STRING>|<QUOTED-STRING>            #shell命令或脚本路径
interval <INTEGER>                                         #间隔时间，单位为秒，默认1秒
timeout <INTEGER>                                         #超时时间
weight <INTEGER:-254..254>                          #默认为0,如果设置此值为负数，
                                                                          #当上面脚本返回值为非0时
                                                                        #会将此值与本节点权重相加可以降低本节点权重，
                                                                        #即表示fall.
                                                                        #如果是正数，当脚本返回值为0，
                                                                        #会将此值与本节点权重相加可以提高本节点权重
                                                                        #即表示 rise.通常使用负值
fall <INTEGER>                                      #执行脚本连续几次都失败,则转换为失败，建议设为2以上
rise <INTEGER>                                    #执行脚本连续几次都成功，把服务器从失败标记为成功
user USERNAME [GROUPNAME]                #执行监测脚本的用户或组
init_fail                                                #设置默认标记为失败状态，监测成功之后再转换为成功状态
}