原理简介

   keepalived顾名思义是保持存活,常用来搭建设备的高可用,防止业务核心设备出现单点故障。keepalived基于VRRP协议来实现高可用,主要用作realserver的健康检查以及负载均衡主机和backup主机之间的故障漂移。如果将TCP/IP划分为5层,则Keepalived就是一个类似于3~5层交换机制的软件,具有3~5层交换功能。

    其主要作用是检测服务器的状态,如果有一台web服务器死机,或工作出现故障,Keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器的工作,当服务器工作正常后Keepalived自动将服务器加入到服务器群中,实现自动剔除与恢复,不需要人工干涉,需要人工做的只是修复故障的服务器。 

    三层机理是发送ICMP数据包即PING给某台服务器,如果不通,则认为其故障,并从服务器群中剔除;四层机理是检测TCP端口号状态来判断某台服务器是否故障,如果检测端口存在异常,则从服务器群中剔除;五层机理是根据用户的设定检查某个服务器应用程序是否正常运行,如果不正常,则从服务器群中剔除。


安装

搞定依赖包:

# yum -y install kernel-devel openssl-devel popt-devel

下载keeplived:http://www.keepalived.org/software/keepalived-1.2.12.tar.gz

tar解包并且进入目录后执行

# ./configure --prefix=/ --with-kernel-dir=/usr/src/kernels/2.6.18-194.el5-i686   #进行配置红色地方用table键补全。指定到/,配置文件会自动放到目录下,方便使用

必须看到以下提示,说明配置正确,才能继续安装。

  Use IPVS Framework : Yes

  IPVS sync daemon support : Yes

  Use VRRP Framework       : Yes

# make && make install                             #编译并安装

安装好后用chkconfig设为开机自动启动。


配置文件详解

keepalived配置项分为三类。全局配置、vrrpd配置、LVS配置(有LVS时用)

# vi keepalived.conf

! Configuration File for keepalived

 

global_defs {

   notification_email {         #指定keep在发生事件时,需要发送email到对象

   sunny_jyd@163.com           #设置报警邮件地址,可以设置多个,每行一个。注意,如果要开启邮件报警,需要开启本机的sendmail服务

   }

   notification_email_from root@example.com       #设置邮件的发送地址

   smtp_server 127.0.0.1                    #设置email的smtp服务器地址

   smtp_connect_timeout 30                   #设置连接 smtp 服务器超时时间

   router_id KeepMASTER                     #运行 Keepalived服务器的一个标识。发邮件时显示在邮件标题中的信息

}

 

notify_master "…"                   #进入(切换到)Master状态时要执行的脚本,可以是状态报警,也可是服务管理。格式为 $1脚本,可选$2group或 instance名,$3Master等状态

notify_backup "…"        #进入Backup状态时要执行的脚本,可以是状态报警,也可是服务管理

notify_fault "…"         #进入fault状态时要执行的脚本,可以是状态报警,也可是服务管理

notify_stop "…"                 #进入stop状态时要执行的脚本,可以是状态报警,也可是服务管理

vrrp_sync_group G1 {       #不同网段的服务器定义为不同组。内外网都开启VRRP实例,配的只查内网,外网挂了,VRRPD仍认为自己健康,不会切换。把内外网实例都放在sync_group,任何实例故障都能切换。

group {

 VI-1              #实例名

}

 

vrrp_instance VI_1 {              #vrrp实例定义部分          

    state MASTER                   #指定 Keepalived 的角色,MASTER表示此主机是主用服务器,BACKUP表示是备用服务器。备份服务器上将 MASTER 改为 BACKUP。

    interface eth0                 #指定 HA监测网络的接口

    virtual_router_id 51           #虚拟路由标识,这个标识是一个数字,并且同一个 vrrp 实例使用唯一的标识,即同一个 vrrp_instance下,MASTER 和 BACKUP必须是一致的。(0-255)

# garp_master_delay 1                   #主从切换时间秒

    priority 100                   #定义优先级,数字越大,优先级越高,在一个 vrrp_instance下,MASTER的优先级必须大于 BACKUP 的优先级。备份服务上将 100 改为 50

    advert_int 1                   #设定MASTER 与 BACKUP负载均衡器之间同步检查的时间间隔,单位是秒

   nopreempt                      #不抢占功能,故障修复后不会抢占,提升实时性和稳定性。这个配置只能设置在stat为backup的主机上,而且这个主机的priority必须比另一台高。

    authentication {              #设定验证类型和密码

        auth_type PASS           #设置验证类型,主要有 PASS和 AH 两种

        auth_pass 1111           #设置验证密码,在一个 vrrp_instance下,MASTER 与 BACKUP必须使用相同的密码才能正常通信。

    }

#track_interface {                #设置额外的监控,里面那个网卡出现问题都会切换

eth0

#}

    virtual_ipaddress {            #设置虚拟 IP地址,可以设置多个虚拟IP地址,每行一个

        192.168.200.254/24 dev eth0 

    }

#  virtual_route { }                  #发生切换时,添加/删除路由

}

 

#虚拟服务器定义部分

#virtual_server_group <string> {                     #虚拟主机组,可选,让一台realserver上的某个server可以属于多个virtual_server,并且只做一次健康检查

# vip port

#     fwmark <int>

#}

virtual_server 192.168.200.254 80 {                      #设置虚拟服务器,需要指定虚拟 ip 地址和服务端口,ip 与端口之间用空格隔开。

    delay_loop 6                       #设置健康检查时间,单位是秒

    lb_algo rr                         #设置负载调度算法,这里设置为 rr,即轮询算法,rr |wrr | lc |wlc |lblc |sh |dh

    lb_kind DR                   #设置 LVS实现负载均衡的机制,可以有 NAT、TUN 和 DR三个模式可选。       

#  persistence_timeout 20                                                     #回话保持时间(秒)

#  persistence_granularity <netmask>           #LVS会话保持颗粒度

    protocol TCP                       #指定转发协议类型,有 tcp和 udp 两种

#   virtualhost <string>                                                 #HTTP_GET做健康检查时,监察web服务器的虚拟主机(即HOST:头)

    real_server 192.168.200.103 80 {               #配置服务节点 1,需要指定 real server 的真实IP地址和端口,ip 与端口之间用空格隔开。

       weight 1                    #配置服务节点的权值,权值大小用数字表示,数字越大,权值越高,设置权值的大小可以为不同性能的服务器分配不同的负载,可以对性能高的服务器设置较高的权值,而对性能较低的服务器设置相对较低的权值,合理利用系统资源

#    inhibit_on_failure                                           #在健康检查失败挂了后,吧weight调为0,而不是在ipvsadm中删。

#    notify_up(down) “”                                   #检测到服务up或down时执行的脚本

#健康检查的方式:HTTP_GET | SSL_GET | TCP_CHECK | SMTP_CHECK |  MISC_CHECK

        TCP_CHECK {                    #realserve 的状态检测设置部分,单位是秒

            connect_timeout 10            #10秒无响应超时

            nb_get_retry 3            #重试次数

            delay_before_retry 3        #重试间隔

            connect_port 80           #测试连接的端口

        }

    }

    real_server 192.168.200.104 80 {    #配置服务节点 2,省略……

        weight 1

        TCP_CHECK {

            connect_timeout 10

            nb_get_retry 3

            delay_before_retry 3

            connect_port 80

        }

    }

}

 

vrrp_script check_httpd {              #对集群中某服务进行监控。这里为httpd

#script “killall -0 httpd”            #通过killall命令检测,-0参数为对程序监控。关闭或异常则返回状态码1。

script “</dev/tcp/127.0.0.1/80”                     #检测端口的运行状态。判断服务是否正常。(或者“”里加脚本路径)

interval 2                    #检查的时间间隔。2秒

# weight 2                           #脚本结果导致的优先级变更:2表示优先级+2;-2则表示优先级-2

fall 2                       #若请求失败两次,认为此节点故障

rise 1                      #若请求一次成功,认为此节点恢复正常

}

track_script {

check_httpd            #监测http进程状态,(或Haproxy等) 为vrrp_script 定义的名

}


#若使用weight,则选举时:

#weight值为正数,master上script检测失败,优先级和backup的weight+优先级比较。

                成功,master和backup都用weight+优先级比较。

#weight值为负数,master上的script检测失败,优先级-weight和backup的优先级比较。

                成功,优先级和backup的优先级比较。