集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。每一个单个的计算机系统都叫集群节点(node)。随着业务的增长,集群通过添加新的节点,满足资源的高可扩展性。
计算机硬件和软件易错性不可避免,这样在节点上的服务会不可避免的中断。高可用集群的出现是为保证即使节点失效,而服务能不中断。
高可用集群在一组计算机中,采用主备模式,主节点提供服务,备节点等待;一旦,主节点失效,备节点无需人工的无缝取代主节点提供服务,这样保证了服务的不中断。
高可用集群软件的主要作用就是实现故障检查和业务切换的自动化,以提供不中断的服务。
二、高可用集群(HA)的衡量标准
高可用性群集(High Available), 是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。
通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均维修时间(MTTR)来度量系统的可维护性。
故:HA=MTTF/(MTTF+MTTR)*100%
具体HA衡量标准:
-
99% 一年宕机时间不超过4天
-
99.9% 一年宕机时间不超过10小时
-
99.99% 一年宕机时间不超过1小时
-
99.999% 一年宕机时间不超过6分钟
三、高可用集群的层次结构
1.信息层(Messaging)
也叫底层基础架构层,主要用于节点之间传递心跳信息,也称为心跳层。节点之间传递心跳信息可以通过广播,组播,单播等方式。
心跳信息:集群中每一台服务器都不停的将自己在线的信息通告给集群中的其他主机。
心跳信息的传递是基于套接字通信的,通过软件提供服务监听套接字,实现数据发送、请求。必须安装软件,并开启服务,这是实现高可用集群的基础。
2.成员层(Membership)
这层最重要的作用是通过Cluster Consensus Menbership Service(CCM)这种服务由Messaging层提供的信息,来产生一个完整的成员关系。
CCM 组件(Cluster Consensus Menbership Service):作用,承上启下,监听底层接受的心跳信息,当监听不到心跳信息的时候就重新计算整个集群的票数和收敛状态信息,并将结果转递给上层,让上层做出决定采取怎样的措施。CCM 还能够生成一个各节点状态的拓扑结构概览图,以本节点做为视角,保证该节点在特殊情况下能够采取对应的动作。
Messaging & Membership一般由同一软件实现。
3.资源分配层(Resource Allocation)
也叫资源管理器层,真正实现集群服务的层。包含CRM(集群资源管理器,cluster Resource Manager),CIB(集群信息基库,Cluster Infonation Base),PE(策略引擎,Policy Engine),TE(实施引擎,Transition Engine), LRM(Local Resource Manager,本地资源管理器)。
CRM组件:核心组件,实现资源的分配和管理。每个节点上的CRM都维护一个CIB用来定义资源特定的属性,哪些资源定义在同一个节点上。主节点上的CRM被选举为DC(Designated Coordinator指定协调员,主节点挂掉会选出新的DC),成为管理者,它的工作是决策和管理集群中的所有资源。
任何DC上会额外运行两个进程,一个叫PE,;一个叫TE。
-
PE :定义资源转移的一整套转移方式,但只做策略,并不亲自来参加资源转移的过程,而是让TE来执行自己的策略。
-
TE : 就是来执行PE做出的策略的并且只有DC上才运行PE和TE。
CIB组件:XML格式的配置文件,工作的时候常驻内存,只有DC才能对CIB进行修改,其他节点上的复制DC上的CIB而来。集群的所有信息都会反馈在CIB中。
LRM组件:是执行CRM传递过来的在本地执行某个资源的执行和停止的具体执行人。
资源(补充):
在集群中构成一个完整服务的每一部分都叫资源,都需要配置和管理。
以web应用为例:vip是资源,web服务器是资源,存储也是资源。不同的服务的资源也不尽相同,其中存储资源的选择、配置、管理是高可用集群中的难点问题。
4.资源代理层(Resource Agents)
集群资源代理,能够管理本节点上的属于集群资源的某一资源的启动,停止和状态信息的脚本,资源代理分为:LSB(/etc/init.d/*),OCF(比LSB更专业,更加通用)。
任何资源代理都要使用同一种风格,接收四个参数:{start|stop|restart|status},每个种资源的代理都要完成这四个参数据的输出。
工作机制:PE根据CIB获取资源的配置信息(集群上的所有信息都会收集到DC的CIB,同步到其它节点),而后做出决策,一旦做得决策就会进行资源的管理。PE借助于本地的CCM通知给其它节点CIB来实现对某些资源管理信息的传递,比如说通告其它CRM要启动某一资源了,收到信息后CRM并不负责启动,转由LRM(Local Resource Manager本地资源管理)启动,而并发资源又借助于RA(Resource Agent资源代理)实现资源管理。
四、高可用集群软件
Messaging and Membership Layer(信息与关系层):
-
heartbeat (v1,v2,v3)
-
corosync
-
cman
-
keepalived
-
ultramokey
Cluster Resource Manager Layer(资源管理层,简称:CRM):
-
haresource,crm (heartbeat v1/v2)
-
pacemaker (heartbeat v3/corosync)
-
rgmanager (cman)
常用组合:
-
heartbeat v2+haresource(或crm) (一般常用于CentOS 5.X)
-
heartbeat v3+pacemaker (一般常用于CentOS 6.X)
-
corosync+pacemaker (现在最常用的组合)
-
cman + rgmanager (红帽集群套件中的组件,还包括gfs2,clvm)
-
keepalived+lvs (常用于lvs的高可用)
补充
1.STONITH(Shoot The Other Node in the Head,"爆头")组件
这种机制直接操作电源开关,控制故障节点的电源开关,通过暂时断电又上电的方式,使故障节点重启,这种方式需要硬件支持。
主节点在某一端时间由于某种原因,没时间传递心跳信息,这个时候集群会选取新的DC,从新分配资源提供服务,如果主节点服务器还没有宕掉,这样就会导致服务器分隔、资源争用,这种情况被称为脑裂(brain-split)。此时,用户能访问,一旦有写的操作,就会导致文件系统崩溃,损失惨重。为避免这种情况,新的DC一旦产生,第一时间对主节点执行stonith,这种操作叫做资源隔离。
2.资源隔离
-
节点级别:这种就叫STONITH,直接把对方的电源给切断,一般这种主机都是连接到电源交换机上的。
-
资源级别:同样需要依赖一些硬件设备来完成。比如节点通过光纤交换机连接到共享存储,通过把需要踢除出去的节点的光纤接口屏蔽来实现资源隔离。
3.仲裁设备
-
ping node:两个节点的模式下,一旦其中一个节点发生故障,发生集群分隔以后,无法判定哪个节点不正常,但工作正常的节点一定是可以连到互联网,故正常的节点是可以跟前端路由通信,所以可以把前端路由当成第三个节点,如果可以ping通,那就说明自己是正常的,可以将对方隔离掉。
-
qdisk: RHCS不是使用ping节点来判断,而是使用一个共享存储的设备,节点按照心跳信息频率每隔一个信息频率时间就往磁盘里写一个数据位,如果设备每隔一个心跳时间间隔就更新一次数据位,就说明这个设备处于活动状态的,可以将对方隔离掉。