运用智能型平台管理界面(IPMI)管理与监控高效能运算丛集 (转贴)

运用智能型平台管理界面(IPMI)管理与监控高效能运算丛集

(作者YUNG-CHIN FANG、GARIMA KOCHHAR、RANDY DEROECK/戴尔公司) 2005/08/04
 
 本文将介绍高效能运算丛集环境中智能平台管理界面(IPMI之规格-探讨各项建置范例并从丛集管理与监控层面的来阐述IPMI的重要功能)

 高效能运算丛集广泛运用在各种密集式运算、密集式执行、以及密集式I/O的应用程序。相较于采用以大型对称式多重处理(SMP)为架构的超级计算机,企业运用高效能运算丛集系统可获得更多的效益,包括扩充性、简易的技术更新、零组件的重复使用、以及灾害复原的功能(附注1)。但丛集系统的平均失效时间(MTBF)却与丛集的规模成反比,主要因为利用各种标准组件所组成的系统,会产生较低的MTBF。因此,相较于小型丛集,丛集管理成为保持大型丛集成本效益一个相当重要的环结。因组件故障或工作环境停摆所产生的非预期性停机,让追求即时效率的丛集应用遭到严重的损损毁。

 在理想的情况下,无须运用主机资源,管理者可藉由远端遥控所有丛集硬件元件的状况,来预防元件故障,其中包括CPU、汇流排周期和存储器等。在这些情况下,故障的元件可以及时被侦测并加以更换,避免丛集的效能受到影响。

 完善的整体系统管理,有赖于资料中心平台的硬件安装;亦即,监视各种服务器实体特性,例如主机板与机箱元件的温度、CPU与电源供应器的电压、散热风扇的转速、电源供应器的状态、以及存取硬件存货的重要信息。虽然大多数原厂代工制造商(OEM)都在其平台的电路中整合监控仪表的功能,但许多硬件管理解决方案至今仍属于专利型或非标准化的产品。因此,管理者经常需要建置支持多重标准的管理解决方案,但这类解决方案往往与异质化环境里的系统无法兼容。此外,以往大型HPC丛集与Web或服务器主机群(server farm)的管理者,都缺乏标准化的硬件型频外(out-of-band)远端管理功能。进阶功耗管理(APM)是现有标准的一个例子,它被制定成服务器管理规格中的一个子集。但APM本身没有完整定义的界面,让它提供高阶的管理功能。

 智能平台管理界面(IPMI)规格协助业界发展出一套整合式远端硬件管理标准。IPMI定义一套通用的平台检测界面,协助提高主机板/基板与机箱之间、基板与服务器管理软件之间、甚至是服务器之间的互通性。它运用智能型硬件元件,即使在服务器关机或被锁定时,管理者依然能监视与存取平台的监控仪表。这种管理功能提供系统管理、复原、资料追踪等信息,进而协助组织降低总持有成本(TCO)。

 IPMI计画

 IPMI计画包含3个独立规格:IPMI(附注2)、智能型平台管理汇流排/IPMB(附注3)、以及智能型机箱管理汇流排/ICMB(附注4)。IPMI是主要规格,针对平台管理硬件定义讯息与系统界面。IPMB规格则针对机箱内延伸式平台管理范围(平台间管理)定义一套内部管理汇流排。最后,ICMB规格定义IPMI型系统之间(跨平台管理)的外部管理汇流排。图1显示IPMB与ICMP连结所扮演的角色。 


▲图1:IPMI平台间(IPMB)与跨平台(ICMB)之连结

 分层式管理

 IPMI主要的主目的之一乃是提供一套分层式管理架构,此架构以模块化设计为基础,针对每个层面的整合提供管理价值,而最终的目的是要涵盖更多软件、硬件和韧体-从处理器、芯片组、BIOS、到母板、机箱等元件。智能管理的能力应嵌入至适当的层面,即使这些层面是独立的设计,也能维持其整合能力。这意谓在整个服务器系列产品中均维持延伸性、重复使用、以及扩充性。图2显示IPMI整合至管理堆叠的状况。 


▲图2:IPMI与分层式管理层次

 IPMI管理元件

 智能平台管理指的是自主的监视与复原功能,这些功能直接建置在平台管理硬件与韧体中,用来监视、记录、回复、以及显示存货信息,过程不受主机内处理器、BIOS或操作系统(OS)状态的限制。以下我们将介绍IPMI规格的代表性元件,这些元件与HPC丛集系统最具关连性。图3显示IPMI的整体架构。 


▲图3:IPMI架构

 基板管理控制器

 许多厂商开发与制造基板管理控制器(BMC),在基板上嵌入一颗芯片,作为硬件平台管理的集中处理器,例如戴尔在其第八代服务器产品中加入一个内建于机板的基板管理控制器,包括Dell PowerEdge 1850与PowerEdge 2850服务器。主机板研发业者可针对开发中的平台选择适合的BMC。其它管理控制器(包括针对机箱管理、冗余性电源供应器管理、以及区域网络(LAN)管理等控制器)可分散至系统内的其它机板,并透过如IPMB汇流排之标准内结连管道进行与BMC的通讯。这类控制器亦称为卫星控制器。

 许多服务器的机板均内建100个以上的传感器装置与芯片。这些传感器透过IPMB汇流排与BMC连结。IPMB汇流排便利了IC联机(Inter-IC, I2C)汇流排与系统管理汇流排(Systems Management Bus;SMBus)(附注5)。这些汇流排是专为低速、低成本而设的管理汇流排。IPMI管理架构内含多个支持多重装置的管理汇流排。卫星控制器透过在IPMB汇流排上传递的IPMI讯息与BMC进行通讯。BMC控制了系统事件日志(System Event Log;SEL)传感器、传感器资料记录(Sensor Data Record;SDR),以及现场可置换单元(Field Replaceable Unit;FRU)信息,这些信息在本文稍后的「系统事件日志」与「传感器资料记录」部份作介绍。BMC提供一个与LAN控制器连结的管道,并能透过区域网络传送讯息,在本文的「区域网络界面」部分中有所介绍。ICMB桥接器提供一个传输IPMB汇流排内部讯息到外部ICMB汇流排装置的机制。图4显示各种元件透过IPMB汇流排与ICMB汇流排和BMC进行连结。 


▲图4:BMC传感器信息以及与外部网络之连结

 BMC、IPMB、以及ICMB的建置目标是让硬件管理与监控架构成为一个独立的计算机子系统。硬件管理与监控架构拥有自己的处理器、汇流排、存储器和ROM。这种方法可让管理者能从远端管理与监控硬件的平常状况,且不会消耗主机CPU的运算资源与主机汇流排的传输频宽。如此一来HPC丛集的应用可顺利运作,不会受到外部管理传输讯息或作业所中断。

 系统事件日志(System Event Log;SEL)

 BMC提供一个集中汇整的非挥发性系统事件日志。卫星控制器侦测各种系统事件并将它们登录到系统事件日志(SEL)中。这些侦测到的事件会藉由卫星控制器对IPMB汇流排上的BMC所发出的指令被加入SEL中。进入SEL的项目包括传感器名称与类型,确保资料不需透过传感器额外的信息或存取SDR的权限即可进行解译。图5显示透过戴尔远端存取控制器4/I(DRAC 4/I)以外部频(out of band)存取SEL记录。 


▲图5:DRAC 4/1系统事件日志(SEL)

 SEL记载项目包括机箱入侵讯息、CPU热传事件、CPU组态错误讯息、风扇速度讯息、机箱与基板温度日志等。SEL被平台事件追踪器(Platform Event Traps;PET)所记录,这部分会在「监控计时器(Watch Dog Timers;WDT)」章节中介绍。系统可利用IPMI的界面指令向管理站台查询SEL的资料。

 传感器资料记录

 传感器资料记录内含有关平台内传感器的种类与数量、传感器门槛支持、事件产生的能力之资料,以及每个传感器指数的类型。例如厂商可在SDR中注明元件属于门槛型传感器,用户仅需变更SDR,就能在不同系统中指定不同的预设电压值(例如在一个系统中设定成+5伏特,在另一个系统中设定成-12伏特)。SDR项目范例包括CPU电压与温度、机箱环境温度、散热风扇转速等。SDR的主要目的是向系统管理软件描述平台的传感器组态。SDR亦含有连上系统IPMB汇流排的元件数量与类型。

 SDR储存库是一个单一、非挥发性的储存区域,并由BMC管理,其中内含所有SDR。储存库提供一套透过各种频外界面检索SDR的机制,例如远端管理适配卡以及其它连结IPMB汇流排的装置。SDR储存库独立于主机处理器、BIOS、操作系统,以及系统管理软件之外。

 集中管理主控台软件可用来管理与监控SDR。系统管理员可设定各种门槛条件在事件真正发生之前提早触发事件。例如,系统管理员可降低CPU过热的门槛温度,当CPU的温度达到较低的门槛值时,BMC就会触发SEL并发出通知,让管理员可事先主动解决事件。包括Web、command-line、简易网络管理协定(SNMP)等界面都可用来存取SDR。系统管理员可根据情况需要决定使用哪里种界面。例如,大型运算装置的系统管理员通常会将传感器门槛设定在较小的范围,以便有更多的时间来应变各种意外状况。

 LAN界面

 IPMI讯息可利用使用者资料元通讯协定(UDP)透过以太网络LAN在嵌入与远端管理主控台之间传递。LAN控制器可将IPMI讯息变成远端管理与控制协定(RMCP)的封包,然后再传送至网络上。RMCP是Distributed Management Task Force(DMTF)(附注6)制定的一个简单要求回应协定,可利用UDP资料元来传递。

 RMCP封包格式亦被DMTF ASF规格所引用。管理软件可利用RMCP格式,在IPMI型与ASF型系统中运作。

 IPMI LAN界面可运用BMC专属的LAN控制器来建置,但一般的网络适配卡(NIC)通常是由系统与BMC所共享。BMC可透过IPMB汇流排(I2C或SMBus)与LAN控制器进行通讯。LAN控制器能侦测到传至管理通讯埠(port 623)封包,这些封包之后会被传至BMC。传至BMC的封包同时也会传到系统。若传入的封包未被封包成RMCP格式,就只能被传送到主机CPU,而不会被送到BMC。BMC运用共享的LAN界面将封装传送至网络,这些封包会和系统产生的网络封包以交替方式进行处理。若使用共享的LAN控制器,就可设定管理埠的界面使用待机电源。这种作法让BMC即使在系统被锁定或关机时仍能顺利启动。

 在远端管理系统上执行的管理软件所收到的区域网络警告让丛集管理员能以多种方式在远端对警告做出反应,这些方式包括:启动系统、关闭系统、或强制重新开机-可从预设的开机装置或从替代的开机装置启动,例如开机前执行环境(Preboot Execution Environment;PXE)服务器(如图6所示)。这种功能让管理员能透过管理主控台从远端来排除问题,以节省宝贵的时间。若门槛值设得够低,即可在丛集系统的效能下降之前,及时找出故障的设备并进行更换。 


▲图6:IPMI环境中的LAN控制器

 使用区域网络的远端主控台

 IPMI 1.5定义serial over LAN(SOL)功能,让系统透过BMC将序列主控台资料藉由IPMI的通讯管道进行转传。SOL主要为远端主控台的管理员,提供文字存取到受管理服务器中重新导向的BIOS和操作系统主控台。

 当被管理服务器的操作系统建立主控台重导的环境后,远端管理员就能启动SOL功能,提供文字界面的远端存取管道,其中包括被管理服务器的BMC、BIOS、以及操作系统。在远端主控台方面,管理员需要一个在地的proxy,并透过特定的逻辑网络连结埠,建立Telnet与被管理服务器的BMC之间的连结上。Telnet的proxy会将指令变成RMCP封包。这些封包会传送到被管理服务器的BMC(透过LAN控制器),里面所收录的信息则传达远端管理员需要一个SOL连结。BMC会透过被管理服务器的序列埠电路来转送通讯资料,然后传给操作系统。操作系统的反应则被转送到COM埠。BMC将反应内容封包,并将输出的内容送到远端管理站台的Telnetproxy。藉由这种方式,只要被管理服务器操作系统仍正常运作,远端管理员就针对被管理服务器进行存取作业。如果操作系统无法正常运作,远端管理员可存取主机BMC来管理服务器、设定BIOS、或同时执行这两项作业。

 远端管理主控台是HPC丛集与资料中心普遍必备的管理功能。本文介绍的SOL环境可免除丛集系统中的一项管理架构,进而降低机架线材的密度与成本,因为需要管理的缆线就减少了一线。此外,由于SOL能透过专属的NIC或共享NIC执行作业,因此管理员可使用共享NIC,协助降低其它类型的频外远端管理硬件的成本,例如序列埠集线器、键盘、影像、鼠标(KVM)切换器与线材;专利型远端管理卡,以及网络结构。

 监控计时器

 IPMI为系统监控计时器提供一个标准化界面,被管理服务器的BIOS、操作系统、以及OEM厂商的软件都可使用这个监控计时器。例如若这样的设定,监控计时器可定期读取BMC SEL(或接收中断讯息作为一个新的SEL项目),然后在设定好的LAN界面上送出平台事件陷阱(Platform Event Trap;PET)。正确设定的远端管理站台中的平台事件过滤器(PEF)会撷取这些PET,然后用它们来发出页面式或电子邮件式的警告。

 进阶建置与电源管理界面

 进阶建置与电源管理界面(Advanced Configuration and Power Interface;ACPI)(附注7)是一个专为远端电源管理设的开放式标准,用来设定与管理主机板上各种功耗元件。它支持由操作系统进行的电源管理以及由BIOS主控的电源管理机制,有别于APM将所有电源管理的功能集中在BIOS。ACPI背后的理念是操作系统最能充份掌握系统的状态,且不像BIOS一样有容量上的限制。在硬件层面,ACPI支持开启电源、关闭电源、以及冷开机等功能。

 在操作系统方面,Linux平台需要延伸核心模块,以便执行如休眠与正常关机等作业。ACPI广泛应用在丛集建置阶段,在没有操作系统的环境中进行远端启动,以及在丛集运作阶段针对已锁死的节点在远端进行重新启动。

 终端机模式

 终端机模式定义如何运用可打印字元来传递IPMI讯息。它亦包含数量有限的英文ASCII文字指令,其中包括SYS指令集,来执行象是高阶系统状态查询、系统重开机、或是变更电源状态等操作。SYS指令的例子如下:

 ■SYS PWD–U USERNAME password:验证与启动一个终端机模式的通讯阶段

 ■SYS POWER OFF:让BMC执行即时的系统关机

 ■SYS HEALTH QUERY:让BMC回传一个高阶系统正常状态报告

 SYS指令集中许多指令是六十进制(hexa-decimal)格式,SYS指令集通常透过序列埠来传送与执行。大多数厂商会封包IPMI ASCII指令集,将指令转换为可阅读的命令列界面(CLI)。因此SYS指令集有许多不同的CLI概括版本。戴尔的Dell OpenManage光盘中内含一套指令集,ipmish就是其中一个例子。光盘中SEL使用的例子是用ipmish指令来读取节点的SEL。这些指令亦可用来查询主机的电源状态,以及进行电源管理(开机/关机/冷开机)。

 ipmish指令中许多功能等同于先前的SYS指令,其中包括:

 ■ipmish-ip 10.10.10.1-u user-p password sel power off:IP位址为10.10.10.1的BMC验证使用者身份,并执行即时关机作业。

 ■ipmish-ip 10.10.10.1-u user-p power sel get-last 45:IP位址为10.10.10.1的BMC验证使用者身份,并回到SEL后至少45个事件前的状态。

 运用IPMI进行互通的丛集管理

 针对HPC丛集远端硬件正常状况之管理与监视,IPMI建立一个独立的管理架构,让操作系统层级的管理应用程序使用。IPMI的应用独立于被管理服务器之操作系统,即使当系统关闭电源时仍能运作。在HPC丛集管理的两个主要阶段中,IPMI支持以下功能:

 HPC丛集建置

 ■进行建置作业时从远端开启节点的电源

 ■从远端检查节点的正常状态

 ■从远端对节点进行冷开机程序,在操作系统建置好之后开始设定丛集的组态

 HPC丛集运作

 ■从远端监控传感器的指数

 ■从远端监控SEL指数

 ■提供一个远端文字主控台(免除一个频外的管理架构)

 ■提供远端电源管理机制(开机、关机、冷开机)

 IPMI规格可提供一个具备互通性、延伸性、可扩充性和高可用性的架构,许多OEM厂商已用它开发服务器管理架构。如本文所讨论,IPMI内含许多现有的系统管理规格与协定,藉由定义各种通用界面来建立互通性,为这些系统管理规格与通讯协定本身、以及在这些系统管理规格、操作系统用户、以及其它管理协定之间建立互通基础。因此,IPMI能协助提升平台的管理能力、可用性,以及生产力,同时协助维持扩充性与安全性。IPMI亦可降低运算资源的维护与管理成本,透过主动更换有可能发生故障的元件,并汰除丛集系统的管理架构,藉此提高节点的正常运作时间。(本文由美商戴尔公司提供)

 作者简介

 ·Yung-Chin Fang是戴尔公司可扩充系统事业群资深顾问。他专精的领域包括网络基础建设管理与高效能运算。他代表戴尔公司参与开放原始码与标准组织的会议,并曾发表数十篇技术与会议论文。

 ·Garima Kochhar是戴尔公司可扩充系统事业群系统工程师。她拥有印度Pilani Birla技术与科学学院(BITS)计算机科学与物理学士学位,以及俄亥俄州立大学硕士学位,主修作业排程。

 ·Randy DeRoeck是戴尔公司可扩充系统事业群的系统工程师。Randy拥有阿肯色州立大学计算机科学学士学位。

 更多详细信息可至下列相关网址浏览:

 ·IPMI采用业者清单:http://developer.intel.com/design/servers/ipmi/adopterlist.htm

 ·IPMI首页:http://developer.intel.com/design/servers/ipmi

 附注:

 1.有关HPC丛集系统与大型SMP超级计算机之间的比较,请参考http://www1.us.dell.com/content/topics/global.aspx/solutions/en/clustering_hpcc?c=us&cs=555&l=en&s=biz&~tab=2.

 2.有关IPMI 2.0规格的信息,请参ftp://download.intel.com/design/servers/ipmi/IPMIv2_0rev1_0.pdf.

 3.有关IPMB 1.0规格的信息,请参考ftp://download.intel.com/design/servers/ipmi/ipmb1010ltd.pdf.

 4.有关ICMB 1.0规格的信息,请参考ftp://download.intel.com/design/servers/ipmi/ICMB_1013.pdf.

 5.有关I2C与SMBus的信息请分别参考http://www.semiconductors.philips.com/acrobat/literature/9398/39340011.pdfhttp://www.smbus.org/specs

 6.有关DMTF的详细信息请参考http://www.dmtf.org

 7.有关ACPI标准的详细信息请参考http://www.acpi.info以及http://www.intel.com/technology/iapc/acpi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值