集群的可扩展性及其分布式体系结构(1) 介绍

这是一个新的关于集群技术的专栏。作者将侧重就集群的可扩展性及体系结构分析、原理论、集群的考量、具体的分析案例(LVS、 beowulf、MOSIX)、集群高可用技术、分布式文件系统等等各个方面为您更加深入的介绍集群系统。本文是第一篇。主要阐述集群起源的概念,分布式系统的定义和目标体现。作者通过一个故事讲述了考虑集群解决方案时需要注意的是:如何正确看待集群,应该从什么角度来考察一个集群系统。解决了集群的这一根本性立场和观点角度,才能利用集群的技术解决现实问题。

前言

"话说天下大势,分久必合,合久必分"高端计算的体系结构发展正是遵循着这样一个规律。从金融、电信等大行业的数据集中处理到分布计算处理,再到二次集中和海量计算,趋势和应用显然是在变化,作为技术本身,分区和群集技术正是为适应不断变化的需要而产生的。

分而治之

分区技术初始于大型主机时代。企业级用户在购买大机后,许多应用都只使用大机的一小部分资源。这时,如果一个企业的生产部门只需要使用这台机器的10%的资源,而且需要比较好的安全性,那么分区技术就能够满足它的要求,将主机的部分处理器和系统资源隔离出来,只利用这些资源组织计算系统,供生产部门使用,其他的计算资源不受任何影响。这是早期的物理分区的概念。分区技术发展到今天,并不只为大型主机服务,因为分布式计算的应用在不断地扩展,在许多方面,高性能的UNIX服务器和IA架构服务器已经在慢慢地取代大机的位置,分区这项技术在这些领域中也有着重要的作用。

分区带给人们的是更高的投资回报率和使用率,更加灵活的应用水平,以及动态地使用和分配资源。这些特点通过不同的分区种类来实现,目前分区的种类越来越多,而且越来越细致,更倾向于客户的应用。最典型的分区技术就数我们在PC上使用的多操作系统了,这属于本地物理分区的范畴。而在多机环境中,通过分区可以将不同"种群"的计算机分割开来(即使几台计算机位于同一个物理位置也可能服务于不同的"种群"),被分区的计算机还可以在不同的层面上复用,以提高计算机系统的利用率。最常见的情况莫如VPN了,借助安全协议,VPN可以把分散的远程的计算机系统集合成一个逻辑上的"局域网",协同完成复杂任务并保证远程通信的安全;而这些计算机可能同那些物理上相近的计算机(比如同一个办公室)再次合并为一个机群,利用空闲时间完成另外一些实时性不高的计算任务。

现在来讲讲"合"

集群技术是一种计算机系统之间连接的方式,运用它可以将分散的计算系统连接起来完成原来单独节点的计算系统无法完成的任务,最早的集群系统就是出于这样的并行处理的目的出现的。但是随着计算机性能的发展和网络不安全因素的出现,系统的稳定性和可靠性是人们主要面临解决的问题。人们开始使用集群方式将两台以上的设备连接起来,当整个集群系统中发生单点或者局部多点故障时,集群中其他的计算机将自动来接替出故障设备。最典型的例子就是实现双机热备份。两台一样的计算机系统,使用集群软件连接起来,其中一台作为另一台的备份,当主机系统崩溃时,另一台来接替它的任务。除此以外,利用集群系统的高并行性能进行复杂的科学、工程计算,也是非常有经济价值的做法。

对于集群系统来说,计算机的架构是一个非常重要的问题。同种架构的计算机之间,可以比较容易实现集群连接,一般来讲都是由厂商提供的集群软件。对于异构的计算机系统,一般没有特别多的选择,目前类似JAVA的中间件技术可以解决部分跨平台的问题。集群技术可以有效地解决开放系统的稳定、抗压和负载平衡问题。

为什么需要集群

以往,企业用户在构建信息应用系统时只能在两种计算体系中进行选择,一是基于主机的计算体系,大体上采用的就是我们上面描述的分区方式;另一就是基于客户机/服务器的群集型计算体系。基于主机的计算体系具有良好的系统可伸缩性、可靠性和高性能,但它昂贵的价格迫使用户在系统建设之初就在硬件系统上投入巨大资源,而用户花费巨额资金购买的主机系统也许包含了不少并不需要的功能,造成资源浪费。基于客户机/服务器的群集型计算体系允许用户根据实际需要逐步增加硬件系统,但这种体系的系统毕竟不是真正意义上的集群,缺乏必要的可用性和可管理性,在应用升级和管理方面都需要用户付出巨大的代价,每增加一个服务器/ 客户端的连接就要同时增加两端的管理负担。

因此,未来对计算速度、系统可靠性和成本实效性的要求必将促使发展另外的计算机模型来替代上述的计算模型。随着计算机网络的出现,一个新的具有更高性能/ 价格比的体系逐渐成为应用主流--分布式集群计算体系。当用户需要完成任何任务时,分布式集群计算提供了尽可能多的计算机处理能力和数据的透明访问能力,同时实现高性能与高可靠性的目标。

集群计算模式是最经济的计算模式。集群系统允许用户把普通商用硬件系统组成机群,并根据需要随时在机群中增加新的硬件,提高系统的伸缩性和可用性,从而能够在价格相对低廉的中低端平台上享用过去只有高端系统才具备的高可伸缩性和高可用性,既提高了系统的性能,同时也降低了成本,实现了更多的计算机=更快速度的目标。

人们对集群计算的兴趣日益增加。集群计算的主题是多种多样的,许多研究人员正在研究有关分布式硬件体系结构和分布式系统软件设计的各方面问题以开发利用潜在的集群并行性和集群可用性。

集群计算系统(或叫做分布式系统)多种多样并涉及不同的系统体系结构。对一些用户来说,一个集群系统是为解决单个问题而紧密结合在一起工作的多处理机的集合。对另一些用户来说,一个集群系统可能意味着一个由地理上分散的各自独立的处理机组成的计算机网络,这些处理机连接在一起以实现对不同资源的共享。

然而,集群这个词在计算机系统中被如此广泛应用以至于它的使用变得有点贬值。许多这方面的混乱来源于缺乏对物理的分布和逻辑的分布的区分。通过区分这两个概念,就可以更准确地描述一个分布式系统的属性。

对于分布式集群系统,我们使用以下 定义:在用户看来,一个集群系统是一个单一的普通系统,然而运行在一系列自治处理单元(PE也叫节点)上的系统,每个处理单元(结点)有各自的物理内存空间并且并且通过高速链路或者标准商品化网络连接。结点间通过紧密的合作实现对同一任务的协同计算。系统必须支持任意数量的进程和结点的动态扩展。

建立一个集群系统的主要目的在于:

    * 固有的应用得以保障。集群系统以一种很自然的方式开始存在,例如,在我们的社会中,人们常常以群体的形式出现并彼此共享信息,公司、社团、班级等等都是这样的概念。在从个人计算向集群分布式计算迁移的时候,往往可以保留原有在个人计算系统上的应用,直接将原有的应用重新在新的集群系统中运行,并获得性能的提升。这也是集群出现的一大原因。
    * 性能/成本。集群系统的并行性降低了处理的瓶颈,提供了全面改进的性能,也就是说,集群系统提供了更好的性能价格比。
    * 资源共享。集群系统能有效地支持不同位置的用户对信息和资源(硬件和软件)的共享。
    * 灵活性和可扩展性。集群系统可以增量扩展,并能方便地修改或扩展系统以适应变化的环境而无需中断其运行。
    * 实用性和容错性。依靠存储单元和处理单元的多重性,集群系统具有在系统出现故障的情况下继续运行的潜力。
    * 可伸缩性。集群系统能容易地扩大以包括更多的资源(硬件和软件)。

最近,我们注意到,除了原有的以生产商用专有集群系统为主的厂商仍在发展自己的专有平台集群系统外,几个主要的硬件厂商都在研制并有计划推出基于 Linux的开放源码的集群产品,比如IBM、HP、SGI等等。开放源码界的迅猛发展为集群的出现提供良好的技术舞台,而向TurboLinux、 VALinux等老牌的Linux厂商更是把Linux集群这一高端应用领域作为自己的战略发展方向,不遗余力的加入激烈的市场产品竞争中。涌现在我们面前的则是多种多样的可供选择的集群解决方案,有硬件的也有软件的。那么,如何借助开放源码届丰富的技术资源,实现一个优秀的集群系统呢?首先可以肯定的是:一个优秀的集群系统不可能是一蹴而就的,需要仔细考虑用户的应用环境、业务需求、所能投入的成本还有技术的后继支援。下面,我们从集群技术方面一些比较重要的功能来探讨一个优秀集群系统所应该具备的一些根本性的因素。而在此之前,我们先来看一个可能是最常见的小故事。

管理员的故事

对于用户来说,怎样看待计算机系统和计算资源是因人而异的。特别是在群集应用环境中,不同的用户需求对资源的要求和侧重点也有所不同。

这里有一个故事,发生在一个被频繁访问的小门户站点。网站刚开始运行了一段时间后,情况良好,但是不久后管理员发现用户抱怨响应速度很低。于是,他升级了服务器的CPU和磁盘系统,又加了512M的内存。心想,这会总不会有人再说什么了吧。可是,过了没多久,(当然,我们的这位站点很幸运的又吸引了大量的用户,现在用户数量变成了原来的5倍),情况更糟糕了,在高峰期间有的访问甚至被站点拒绝。这是怎么回事呢?再升级吧,可硬件的升级似乎走到了尽头,我们的管理员再次陷入困境。

这里,不幸的管理员遇到了系统瓶颈问题。通过查看日志,我们发现服务器CPU的负荷基本保持在10%左右(占用率),但是却有很多请求等待处理。是CPU 不够快吗,显然不是;是磁盘太慢吗,已经用了最快的RAID阵列,平均寻道时间到达5ms,不能再快了;内存不够大吗,主板所能支持的只有4G,已经到了上限。所有的一切已经是极限,再升级下去只好更换到大型机了(那又会是一个无休止的投入)。站点每天仍要接受上百万次甚至上千万次的页面访问,怎么样才能既控制服务器硬件成本又能大幅度提高性能呢?

固然,添加高速磁盘阵列可以减少寻道时间,提高响应的速度,或者,使用Cache技术能够加快页面访问效率。但是,一味地依靠扩展单一系统的硬件终究会有上限,磁盘、内存、网络代宽的发展速度远远低于CPU的摩尔定律速度,造成彼此性能的互相牵制。而且,在单机系统种,越到高端的硬件,成本与性能比越是成指数下降(见下图)。解决这样的问题,就有必要从体系结构入手,而不是简单的升级机器。

单机系统性能/价格曲线
fig1.gif
2008-10-24 10:31 上传
下载附件 (2.07 KB)


在上面的故事里。对于用户而言(指的是系统管理员和网站用户),服务器是提供web服务的资源,是若干计算、存储、数据的资源集合(查找数据、提供空间)。用户关心的是你的站点的响应速度而非你用了多快的CPU多大的内存。因此,我们从用户的角度出发,不难发现,如何看待你的计算资源,是紧紧和使用者的需求联系在一起的。那么,解决问题的关键就不是一些简单的数字层面上的思考了。沿着用户的需求--提高站点的响应速度,更确切的说缩短web站点响应每个HTTP请求的时间
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值