2.1 基本术语(基本概念)

最后更新2021/07/06

在本节,作者一方面想给读者解释IBM PowerVM的一些基本概念,另一方面要统一双方对一些基本概念的界定和理解。IBM PowerVM几乎所有的组成部件都是IBM独立设计、开发的产品,尽管在IT业界有很多公开的标准可以匹配和遵从,但IT标准仅仅是业界的“共识”,而不是“法规”,也就是说厂商遵守也好,不遵守也罢,并没有什么权威的法律约束。作为IT技术的领导者之一(IBM作为IT技术的领导者是我们不得不承认的事实,而“之一”是IBM不得不承认的事实),IBM引领、参与、影响了无数IT标准的制定。在这一基础之上, IBM提出的技术设定往往会成为今后的标准,而IBM对相关概念的诠释也往往就顺理成章地成为了“官方”的概念解释。
事有例外,IBM也有很多技术并没有成为业界标准,而IBM这头巨象自然不满意这样的结果,它依然我行我素地走自己的道路,直到最后烈士断腕。在此期间,IBM标准、业界标准(主要的标准来源是IEEE/开源社区和厂商联盟)、其它厂商标准互相纠结争斗,直到某个标准一统江湖,时间可能会长达几年到十几年,最直接的后果是IT设施、实施专家要同时了解所有相关的概念和它们之间的区别。那么现在,我们也不得不先回顾这些概念。

  • AME Active Memory Expansion 动态内存扩展。由于IBM服务器的Power CPU性能越来越强,与之相匹配的高速内存的价格并不低廉,如果Power小型机系统配备完全足够的内存成本很高。在这种情况下,IBM PowerVM为Power 7 CPU小型机增加了内存数据动态压缩、还原的能力。物理内存中的数据可以由CPU进行动态压缩和解压缩,操作过程对内存中的程序、操作系统透明(当然可以通过一些命令进行状态察看和管理)。压缩和解压缩的过程当然需要消耗一些CPU的处理能力,但可以节省出大量的物理内存。有关AME技术的实现细节请阅读<2.5.13动态内存扩展AME>一节。

  • AMS Active Memory Sharing 动态内存共享。这是IBM PowerVM技术从Power 6 CPU开始增加的虚拟化功能,不仅仅CPU能在多个分区之间实时动态共享,物理内存也以可以实时共享。VIO Server提供了类似AIX操作系统paging space的功能,可以让分区“认为”自己拥有更多的物理内存。当分区真正访问到“并不存在”的物理内存的时候,就从已经分配给其它分区,但并未被使用的内存中获得[ 严格意义上,内存可能已经被使用,但被用于文件系统cache,AMS技术能够识别内存使用情况,释放可以被释放的内存。]。如果一台物理机上运行的所有分区需要的内存总和超出了真实存在的物理内存时,系统通过VIO上设置的专用交换交换区进行交换,来强制释放一些物理内存供分区使用。AIX操作系统级别已经可以实现paging space的虚拟内存功能,为什么还需要AMS功能在VIO上再次实现?这是因为在某些设计要求下,必须在比操作系统更低的层次上实现虚拟才能高效地利用内存资源。例如Power HA(即以前的HACMP群集技术)的一种配置方案是主备方案,即主机运行业务,备机处于热备、接管模式,随时等待接管主机业务。由于备机有可能接管主机,所以需要备机具有与主机相同的CPU、内存、IO配置以便在接管后保证运行性能。为利用备机(在虚拟化环境中是位于另一台物理机上的一个备份分区)的闲置资源,通常采用共享设计,从最初的VIO Server共享IO、到Share Partition的共享CPU,以至于AMS技术后的物理内存共享,可共享的资源越来越多。AMS解决的是AIX paging space虚拟内存模式无法真正获得物理内存的缺陷。AMS与在分区AIX操作系统中配置交换区有何区别?其实它们两者在技术上没有任何区别,但在使用中,在操作系统内部配置交换区,物理内存只能在同一操作系统中的不同进程之间进行调配,不可能超越同一操作系统的管理范围。AMS则可以跨分区实现,在多个操作系统之间进行调配。此技术非常有利于双机热备架构的群集系统,可以很好地利用备机闲置物理内存资源。有关AMS详细技术实现请参考<2.5.14动态内存共享AMS>一节。

  • APAR Authorized Program Analysis Report 通常与补丁程序关联在一起,其含义是经过IBM确认的程序bug报告,既然有bug,就需要有修补程序,因此每个APAR会有与之对应PTF Program Temporary Fix,就是对该bug的临时修正程序。在进行应用软件安装时,软件的安装要求往往不仅包含了最低操作系统版本(Version/Release)、最低技术版本(TL, Technology Level)和服务版本(SP, Service Pack)要求,还包括一组APAR(Authorized Program Analysis Report,即IBM对程序的故障分析及修复补丁PTF Patch Files[ APAR的IBM解释请参考:http://www-01.ibm.com/support/docview.wss?uid=swg21424131]),也就是单独需要安装的修复程序。AIX Version/Release/TL/SP都是定期推出,一般来说,Version的寿命是5年以上,从AIX面世的v4到目前的v7,在20年间已经有4个大版本推出;Release大约2年会有一个,每个版本3个Release左右,例如v4.3/v5.3(但v6.1只有一个Release);TL对应于每个Release,可能会有10个以上(TL以前称为ML, Maintenance Level。IBM觉得整天发布补丁太难听,特别是最近几年ML的定位从故障性补丁转移为功能性补丁,即不够成Release的小功能改进、对新机型的支持,所以将ML改名为TL),最著名的v5.3有12个TL之多。最后的SP只为特定TL提供补丁修补功能,原则上不会增加任何新功能、新支持。每个SP会包含很多个APAR(其实TL中也包含若干APAR,可以将TL理解为TL + SP0),每个SP大约3个月左右的生命周期。在最新的TL/SP中通常会包含所有以往发布的APAR(没有影响到的除外,例如某个功能/程序已经在当前TL中彻底消失或更改,APAR自然就不需要了)。但如果想使用稍低的TL/SP,那就必须安装要求的APAR。不要奇怪,有新的为什么还用旧版本?对于大型系统,很多应用程序如果已经运行在某个版本多年,经过持续不断的维护、修补,会进入比较稳定的时期,如果改用新版本,还会再经历一段故障较多的“磨合期”,这就是著名的‘浴盆曲线’。

  • APV Advanced Power Virtualization 是IBM对Power小型机虚拟化技术的称谓,包括分区、微分区、动态分区等技术。现在APV技术升级更名为PowerVM,并增添了一系列新功能。

  • ASMI Advanced System Management Interface 用于pSeries、Power小型机硬件管理的界面,物理接口是RJ45以太网接口,连通网络之后,使用Web浏览器或者HMC访问(HMC要首先与此界面连通)。ASMI提供比较底层的管理功能,当进行小型机首次初始化(通常此操作由IBM服务工程师完成)、与硬件设施相关的故障诊断和修复中才会使用,在本书中介绍了一部分Web菜单的功能和使用。详细技术请参考<6.2 ASMI管理>以及网站:
    http://www-01.ibm.com/support/knowledgecenter/api/content/8247-22L/p8hby/p8hby_kickoff.htm

  • BFF Backup File Format是一种AIX程序发布的格式,用于各种AIX安装程序,程序名的后缀通常是.bff,但并不是说程序名必须是xxxx.bff(AIX/Unix中文件类型与文件的后缀名无关)。BFF有两大类型,即安装类型和升级类型。升级类型需要已经有基础版本,必须在基础版本之上才能安装(有时安装类型也有一些预装软件要求,必须其它某种软件已经安装),但这两种类型在格式上没有区别,不同的是预装检测的内容不同而已,分为这两种类型纯粹是管理需要。如果是IBM发布的程序,在程序名中通常会标记相关信息,例如bos.adt.rte 6.1.8.3.U表示程序名为bos.adt.rte(bos表示basic operation system属于AIX OS的基础程序;adt是advance development tools高级开发工具的意思;最后的rte是runtime environment即运行环境),程序版本为6.1.8.3,这是升级程序(U),需要系统已经安装了任何一个bos.adt.rte 6.1以上的版本,或者在安装程序目录中存在任何一个对应程序的安装版,例如名为bos.adt.rte 6.1.6.0.I的程序文件(I表示安装版)。BFF格式的文件可以自己通过工具软件生成,在较新版本的AIX已经包含了创建BFF的命令bffcreate,或者通过bull网站下载工具。有兴趣的读者请参考以下网址的内容:
    http://ramses.smeyers.be/varia/aix/createlpp

  • BIST Built-In Self-Test 即固化于系统硬件基本输入输出程序(Basic IO System / BIOS)中的系统检测功能,用于系统(或者某个分区)刚刚启动时进行硬件设备和完好性检测。在虚拟化环境中,BIST通常指整机(物理机器Frame)上电时候进行的检测,而某个分区启动的时候由于物理整机早已经运行,所以没有什么BIST的工作要做。

  • Book 在IBM小型机中重要设备外都有金属壳保护装置,同时也提供了热插拔支持,这个设施就被形象地称为book。例如<图 22 Power 6 595小型机及BPA前视图>中部(未放大的部分),六个黑色带把柄的装置就是CPU book(图中有两排每排3个CPU book)。
    P595前视图金属壳保护的目的一方面是防止物理损坏,另一方面是进行电磁屏蔽减少干扰,其实同时也增加了对宇宙射线的屏蔽。读者不要觉得这是天方夜谭,事实上,IBM芯片研发机构通过对芯片损伤的分析发现,在正常使用情况下(非过热),有很大比例的芯片故障,特别是超大规模集成电路故障源自于宇宙射线。

  • BPA Bulk Power Assembly IBM电源组件(电源系统的总称)、BPC Bulk Power Controller电源控制器、BPD Bulk Power Distributor 电源分配器、BPH Bulk Power Hub电源组件Hub(就是一个内置的以太网集线器用于连接电源系统内部组件和Service Processor)、BPR Bulk Power Regulator 电源整流器。<图 22 Power 6 595小型机及BPA前视图>中左图上层装置整体为BPA。这一系列设备通常只存在于IBM小型机中的高端机型,而其它中低端机型则只存在两个简单的独立电源,通过SPCN控制。

  • BSR Barrier synchronization register 用于支持多线程之间信号同步的寄存器。在分区设置中有一个选项参数可以打开或者关闭对BSR的支持。如果分区用于多线程科学计算,需要线程之间同步,可以通过打开BSR支持提高分区性能,反之则关闭它以减少无用的硬件消耗。实际上,即使不打开此寄存器,线程程序之间信号同步依然可以进行,不过是软件实现,效率较低而以。

  • CAA Cluster Aware AIX内核支持群集的AIX。以往版本的AIX本身没有任何群集管理扩展,所有的群集功能都由外挂的程序完成,例如RSCT、CSP、PowerHA。AIX 6.1 TL6或AIX 7.1以后版本直接把部分群集功能集成到内核,使得AIX与群集管理软件联系更为紧密也更为可靠。如图<图 23 AIX内核支持群集功能>所示。由于CAA功能刚刚开发,目前还有很多bug,相信以后随着版本升级和bug修复,会越来越强大。
    AIX内核支持群集功能- CEC Central Electronics Complex,IBM的硬件系统经常用Complex(设施,另一个类似的名词是Facility)表示某一种设备组合,CEC也就是中心电子设备的意思,即小型机的主要电子设备——CPU/内存/系统板。而常说的CEC Drawer则表示小型机中装载主要电子设备的Drawer(抽屉, 参考Drawer词条)。

  • CSM Cluster Systems Management,IBM提供的群集系统管理软件,其客户端免费提供,在AIX 5.3以上操作系统中捆绑提供,安装操作系统的时候自动被安装。注意,如果不是新安装系统,而是由旧系统升级而来,则有可能由于升级步骤、方法不同,此软件集没有被正确安装,或者缺失部分文件集,在以后导致一些操作问题。如果遇到此类问题,需要先修正安装错误然后再去分析故障,最简单的解决方案是删除全部CSM文件集,再根据需要安装符合当前操作系统版本、补丁的CSM文件集。前一段时间,一度有消息说IBM放弃了未来对CSM的支持而转为xCAT,最近的新信息是CSM还会存在,并且会吸收很多xCAT的功能。其实CSM和xCAT的功能互相重叠,它们的区别是CSM由AIX项目组成员研发,属于闭门造车的产品(仅为作者个人看法),并且当时只支持AIX;而xCAT是IBM产品使用者(也是IBM工程师)开发,后来成为开源产品,更实用有效,但缺乏针对性和OS(AIX)底层内核支持。另外由于xCAT是开源产品,任人都可以插手分析,CSM则完全是版权产品,比较封闭,很难做进一步扩展。CSM与其它群集管理软件的功能也互有重叠,它们偏向于设备、硬件、底层管理,也就是控制硬件设备起动、引导过程等,而不具有直接的应用、业务接管等功能。更多内容请参考本节RSCT词条的介绍(RSCT的作用是提供其它群集管理软件基础的使用接口,也就是说CSM也需要依靠RSCT提供一些管理接口)。

  • CUoD Capacity Upgrade on Demand 这是IBM的一种硬件销售模式,即预先收取很少的费用但是额外提供更多的CPU、内存给买方,不过这些额外的资源并没有被激活,买方不能使用,相当于汽车的备胎。当买方实际购买(已经被激活)的硬件出现故障的时,或者买方付费升级系统,获得并输入了激活码完成激活操作之后,这些预先提供的硬件资源立刻就可以使用或者自动替代故障的系统资源(当然是坏一颗CPU,或者新购买一颗CPU资源,系

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ensighine

如需特定专题,踢我

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值