群集技术:三款主流服务器集群软件
 
 
1、ROSE HA 服务器集群软件
20070127_srv_rose_00.jpg
  在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路接入不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以使用户端的改变达到最少的程度。
  ROSE HA根据不同的行业及各行业不同的需求设计多种备援模式以弹性的调适用户的最佳组合及选择。

ROSE HA系统运作方式
20070127_srv_rose_01.jpg
  在正常的运作情形之下,主机之间透过冗余侦测线路互相侦测,当任一主机有错误产生时,ROSE HA提供严谨的判断与分析,确认主机出错之后,才完全启动备援接管动作。

  ※ 支持各种操作系统平台
  ※ 支持众多的UNIX平台(如:IBM、DEC、HP、NCR、SUN、SGI、NEC、SIEMENS等)
  ※ 支持众多的PC平台的Unix系统(如:SCO/Unix、Solraris X86等)
  ※ 支持各种数据库:MS-SQL、Oracle 、Informix、Sysbase、Excheng|、Lotus/Nose、DB2等

接管动作包括
20070127_srv_rose_02.jpg
   ※ 文件系统( File System)
  ※ 数据库( Database)
  ※ 网络地址( IP Address)
  ※ 应用程序(AP)
  ※ 系统环境(OS)
  ※ 容错备援运作过程
 自动侦测(Auto-Detect)阶段,由主机上的软件通过冗余侦测线,经由复杂的监听程序。逻辑判断,来相互侦测对方运行的情况,所检查的项目有:
  ※ 主机硬件(CPU和周边)
  ※ 主机网络
  ※ 主机操作系统
  ※ 数据库引擎及其它应用程序
  ※ 主机与磁盘阵列连线
 为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,侦测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供维护参考。
 自动切换(Auto-Switch)阶段 某一主机如果确认对方故障,则正常主机除继续进行原来的任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服务。
 自动恢复(Auto-Recovery)阶段 在正常主机代替故障主机工作后,故障主机可离线进行修复工作。在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成的主机上。整个回复过程完成由EDI-HA自动完成,亦可依据预先配置,选择回复动作为半自动或不回复。
多种容错备援模式

  1,双机相互备援模式
  2,主从式备援模式
  3,Hot Standby模式
  4,双网卡,单网段类型
  5,双网卡、双网段模式
  6,多主机备援系统

用户定制模式
  在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路接入不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以使用户端的改变达到最少的程度。
  ROSE HA根据不同的行业及各行业不同的需求设计多种备援模式以弹性的调适用户的最佳组合及选择。
  ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联
  ※ 双主机各自通过一条SCSI电缆线与RAID磁盘阵列相联
  ※ 双主机各自运行不同的作业,彼此独立,并相互备援
  ※ 主机A故障后,主机B自动接管主机A运行
  ※ 主机A的作业将在主机B上自动运行
  ※ 主机A的客户(client)要在主机B上重新登录
  ※ 主机A修复后,主机B将把A的作业自动交还主机A
  ※ 已经连到主机B上的A的客户需要在主机A上重新登录
  ※ 主机B故障时,主机A接管主机B的作业和数据
  ※ 主机B修复时,主机A再将原来接管的作业和数据交还主机B
  ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联
  ※ 双主机各自通过一条SCSI电缆线与RAID相联
  ※ 主机A为Master,主机B为Slave
  ※ 主机A处理作业和数据,主机B作为热备份机
  ※ 主机A故障后,主机B自动接管主机A的作业和数据
  ※ 主机B同时接管A的主机名(Host)及网络地址(IP)
  ※ 主机A的作业将在主机B上自动运行
  ※ 主机A的客户(client)可继续运行,无需重新登录
  ※ 主机B现为Master,主机A修复后作为Slave,作为热备份机
  ※ 2个主机建议使用规格相同的主机

模式3---双机热备份(Hot Standby)
  ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联
  ※ 双主机各自通过一条SCSI电缆线与RAID相联
  ※ 主机A为Master,主机B为Slave
  ※ 主机A处理作业和数据,主机B作为热备份机
  ※ 主机A故障后,主机B自动接管主机A的作业和数据
  ※ 主机B同时接管A的主机名(Host)及网络地址(IP)
  ※ 主机A的作业将在主机B上自动运行
  ※ 主机A的客户(client)可继续运行,无需重新登录
  ※ 主机A修复后,自动接管原来的作业和数据,主机B继续作备份机
模式4---双机双网络适配器(Dual Ethernet Adapter)
  ※ 双主机各自通过一条SCSI电缆线与RAID相联
  ※ 双主机各自运行不同的作业
  ※ 每一主机定义第一网口和第二网口
  ※ 主机A上第一网口在故障时由第二网口接管
  ※ 主机B上第一网口在故障时由第二网口接管
  ※ 主机A故障后,主机B自动接管主机A的作业和数据
  ※ 主机B同时接管A的主机名(Host)及网络地址(IP)
  ※ 主机A的作业将在主机B上自动运行
  ※ 主机A的客户(client)可继续运行,无需重新登录
  ※ 主机A同样可作B的备份机
  ※ 进行数机双工备份和网卡的备份
ROSE HA 新功能介绍

  RoseHA for Windows

  增加了对Team 类型网卡的支持。
  增加了对磁盘阵列的硬件锁功能的支持。
  修改了Volume资源的配置方式,以一个磁盘设备(Disk)作为基本卷单元进行配置。
  增强了对共享卷的处理,在主机发生卷资源切换不成功时,会主动关机或重新启动,确保备机接管成功。
  对于NT Server 类型的资源,增加了新的配置方式:除传统的直接选择NT Service方式进行配置外,还可以通过指定Start、Stop、Agent三个栏目(的程序)的方式进行配置。
  在Userdefine类型资源中,增加了是否允许Agent程序出现运行窗口的选项。
  增强了资源的修改编辑功能。
  增加了共享盘盘符被占用的报警机制。
  增加了对Switch或HUB断电的适应能力。
  增强了对FileShare资源可用共享资源的处理。
  增加了RoseHA界面中将各种配置信息保存到文本文件的功能。
  增加了日志部分的内容信息。
  重新设计了HOSTID机制,确保重新安装系统,硬盘重新分区不会改变HOSTID。
  其它管理界面各个方面操作及显示上的修改完善。
  手册针对相关功能进行了修改和补充。
RoseHA for Linux
  支持各种主流最新的Linux操作系统,如RedHat 7.x, RedHat 8.x。
  新的基于Java2的GUI管理配置界面。
支持Intel网卡的iANS功能,Intel网卡必须使用Intel提供的e100, e1000的驱动程序。
  配置界面中增加了GroupID的设定功能,可以更加轻松直观的将多个服务指定为一组,这些组中的服务将同时切换带入带出。
  配置界面中提供了多个卷的配置方式,可以为一个Job配置一个以上的卷资源。
  增加了管理界面的修改功能,可以在管理界面中直接修改处于BringOut状态的Job,无须删除后重新配置。
  增加了新的磁盘系统监控机制,可以更加高效,准确,及时的监控磁盘阵列状态。
  规范统一Agent的返回值,正常时返回0值,异常时非0值。
  增强安全性,修改部分执行文件权限。确保root用户才能运行HA的相关程序。
RoseHA for UnixWare
  支持UnixWare 7.1.1最新补丁包 uw711m2.ima
  新的基于Java2的GUI管理配置界面。
  增加了新的磁盘系统监控机制,可以更加高效,准确,及时的监控磁盘阵列状态。
  规范统一Agent的返回值,正常时返回0值,异常时非0值。
  增强安全性,修改部分执行文件权限。确保root用户才能运行HA的相关程序。
  更新HostID机制。通过安装RoseHA后,使用RoseHA提供的hostid工具获得申请License所需的hostid,不再使用UnixWare系统的SystemID作为hostid。确保重新安装操作系统,硬盘重新分区不会改变HOSTID
2、LifeKeeper 服务器集群软件
  LifeKeeper提供了基于Windows NT (2000),Linux,UNIX多平台操作系统的容错软件并同时支持远程灾难备份LifeKeeper提供数据、应用程序和通信资源的高度可用性。
20070127_srv_lifekeeper1.jpg
 LifeKeeper不需要任何特别的容错硬件。你可以集合使用二到十六个服务器结点.并访问特定地点的配置数据.然后,LifeKeeper 会自动地提供错误检测和多层现场恢复. 在出现故障的情况,LifeKeeper会将保护资源自动转换到一个根据优先权而设定的系统.在实际进行切换用户时,会经历一个十分短暂的休眠.但是当系统完成了切换操作后, LifeKeeper会在所选择的系统上自动地恢复操作现用.

  LifeKeeper 2.04 for WindowsNT为例加以说明:

  LifeKeeper2.04保护起来的资源是:
卷、IP地址、共享文件、LAN(局域网)管理器服务器名称、应用程序、定义的用户、MSCS应用程序

  心跳故障检测Heartbeat:  
  LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制.即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper就把这条路径标示为失效(红色),如果你只定义了一条通信路径当LifeKeeper 把这唯一的一条通信路径标为失效时,LifeKeeper便立即开始恢复过程.然而,如果有冗余路径.LifeKeeper能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果LifeKeeper开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。

  一般情况下LifeKeeper 只在下列事件发生时,启动系统恢复功能: 
所有的通信路径故障.如果所有节点都没能收到心跳信号.把所有通信路径都标为失效,Lifekeeper开始安全检查。安全检查失败.当所有通信路径故障时,LifeKeeper向整个网络发出安全检查信号.如果信号指出配对系统还"活"着的时候,LifeKeeper不启动Failover如果安全检查没从配对节点返回信号,LifeKeeper 就开始Failover。 因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径.

通信路径:
  LifeKeeper支持在节点之间和心跳通讯中,使用如下通讯路径:
  (1)socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网、令牌环网以及FDDI 或CDDI 。
  (2)串行口 在LifeKeeper配置中,你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与LifeKeeper系统相连接。
  (3)共享磁盘你可以定义一个共享磁盘分区来作为LifeKeeper的通讯中介。可以只使用小至1MB的分区,当然,也可以使用更大的空间。LifeKeeper假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
  例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务所检测到,则下面之一是可能引起这一现象的原因: 服务器的RS-232卡或者端口失败电缆失效主服务器暂时挂起主服务器失败,失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
注: 1、支持目前所有主流的 DataBase
Landcluster多节点高可用集群系统
 解决方案描述:
                  
  目前大多行业用户所面临和苦恼的问题包括:
  1、关键业务的可靠性问题;
  2、系统中多个关键业务的维护难度高的问题;
  3、应用数据安全的问题;
  4、业务系统停止服务会造成巨大损失的问题。
  LanderCluster产品系列包括双节点产品和多节点产品LanderCluster-MN。主要解决用户关键业务系统的高可用性、可管理性、系统整合、系统配置优化的问题。
20070127_srv_lander.jpg
  联鼎双机能有效的解决单一关键业务的可用性问题,构建一个高效的双机集群环境。而联鼎多节点集群方案则能够将多个关键业务整合在一个多节点的集群环境中,各节点之间实现了灵活的硬件冗余,在集群中的一个或多个服务器发生故障时,保证关键业务的不间断服务。
解决方案目标用户:
  银行中间业务系统、电信计费、邮政储蓄、政府、医院、厂矿企业等具有关键业务的行业用户。
解决方案功能与优势:
20070127_srv_lander1.jpg
功能描述:

  ● 自主产权软件产品,支持功能定制;
  ● 集群配置安装维护简单;
  ● 管理员密码验证,安全级别高;
  ● 集群软件自我监控功能,确保守护进程健康运行;
  ● 对应用程序的灵活监控功能,可以对进程数量、特殊应用进行监控;
  ● 节点和任务的可伸缩性;
  ● 通过集群管理平台可以进行集中、远程的管理、监控;
  ● 理论上支持的节点数无限;
  ● 任务的备援规则可以灵活配置,资源利用更加合理;
  ● 基于系统级的集群实现应用级的集群;
  ● 保证了足够的集群系统综合处理性能;
  ● 集群工作方式灵活多样,支持多机互备、多备一、多备多等方式;
  ● 完善的日志记录和错误报警,便于错误跟踪;。
  ● 应用的无关性,支持几乎所有的数据库环境(Informix/oracle/Sybase等);

方案优势:

  ● 节省管理成本,集群中的节点统一管理,使管理变得轻松;
  ● 整合了环境中的应用,使之达到整体高可用;
  ● 方案性价比高,关键业务子系统越多、方案的平均投入越低,节省了设备的投资;
  ● 方案伸缩性好,集群中主机可以灵活增加、减少;
  ● 服务优势明显,借助联鼎服务平台,可以得到全方位、及时的技术服务
系统构架  
系统配置

  ● Linux、Other Unix
  ● SCO OpenServer 5.0.4 or later
  ● SCO Unware 7.0 or later
  ● WindowsNT/2000 or later
硬件要求:
  ● Intel构架服务器产品
  ● 服务器配置一个外部SCSI/FC接口
  ● SCSI/FC存储子系统
  ● 服务器配置两个以上全双工网卡
  ● 256M以上内存:
磁盘空间要求:
  ● LanderCluster核心软件包需要15M磁盘空间;
  ● 共享磁盘阵列子系统中需要划分单独的字符设备;
  ● 用于SCSI HeartBeat容量5M;
  ● LanderCluster需200K左右的内存;
数据库:
  ● Informix 7.x or later
  ● Oracle DataServer 7.x or later
  ● Sybase all released version
  ● DB2 7.x or later
  其他:
  ● 用户可以根据实际环境定制功能
  ● 用户定制备援规则
配置示意图解
  方案一:
20070127_srv_lander2.jpg
  方案二:
20070127_srv_lander3.jpg
  方案三:
20070127_srv_lander4.jpg
注: 1、支持目前所有主流的 DataBase