【翻译】Full-System Power Analysis and Modeling for Server Environments【part1】

服务器环境的全系统功耗分析和建模

摘要 - 电力输送和冷却成本的增加以及高密度计算机系统的发展趋势已经对服务器环境中更好的电源管理产生了越来越大的需求。尽管人们对这个问题越来越感兴趣,但在量化理解功耗趋势和开发简单而准确的模型以预测全系统功率方面的工作却很少。我们研究了组件级功率分解和变化,以及仪表功率优化刀片服务器的特定时间工作负载功耗。通过这种分析,我们研究了先前的特殊方法对于理解功率分解的有效性,并量化了未来对功率建模和管理重要的几个有趣趋势。我们还介绍了Mantis,这是一种非侵入式方法,用于建模全系统功耗并提供实时功率预测。 Mantis使用一次性校准阶段通过将AC功率测量值与用户级系统利用率度量相关联来生成模型。我们通过使用各种工作负载在两个服务器系统上实验验证模型,这两个服务器系统具有截然不同的电源足迹和特性(低端刀片和高端计算优化服务器)。 Mantis为整体和时间功耗提供高精度的功率估计,使其成为功耗感知调度和分析的有用工具。 

 一,导言
电源管理正在成为企业环境中的一个重要问题,既可以降低与电力输送和冷却相关的成本,又可以提高压实性,可靠性和环境标准的合规性。 数据中心服务器整合的最新趋势以及刀片等高密度计算机系统的采用可能会进一步加剧这些问题。
例如,30,000平方英尺。 10MW数据中心拥有1000个标准计算机架,每个机架消耗10KW,仅计算设备的年电力成本可能接近800万美元[21]。 处理这种散热水平所需的空调的资本成本可能在500万至500万美元之间。 此外,每瓦功耗可能还需要0.5到1W的功率来运行冷却系统[21]  - 再增加4到800万美元的运营成本。

功率密度也是阻止更大压实的限制因素之一,特别是在刀片服务器中具有更小的形状因数。 未来的刀片服务器估计需要接近188K BTU /小时(55KW机架)[20]。 这种密度很可能需要数据中心的液体冷却。 此外,与较大功耗相关的温度升高已被证明会降低系统的可靠性和效率。 每升高10℃的温度超过21℃就会使电子设备的可靠性降低50%[24]。 同样,15C的上升也会使硬盘驱动器的故障率提高一倍[10]。 最后,在更全球的层面上,企业能耗的增加也与环境后果有关(例如,每年二氧化碳排放量为400万吨)。 这导致了一些环境机构提出的降低企业实力的建议和激励措施[25]。

尽管人们对此问题越来越感兴趣,但在量化理解系统级功耗趋势方面的工作却很少。 一些关键的开放性问题包括:企业系统的功耗在哪里? 关键能源瓶颈是什么? 应用程序执行期间功率变化的组件级时间趋势是什么? 特定工作负载对系统组件的电源使用特性有何影响? 为了回答这些问题,我们对功率优化的刀片服务器进行了检测,以提取组件级功率测量值。 我们将讨论该实验的见解及其对开发功率模型的适用性。

目前的功率建模方法分为两大类:硬件级功率测量[8],[13],[11]或模拟级功率建模[5],[7],[9],[ 14],[22],[26],[27],[29]。 直接硬件测量快速而准确,但仅适用于现有系统。 通过仿真进行功率建模适用于现有和未来系统,并可提供详细的分析和分解。 然而,与真实硬件相比,全系统模拟器非常慢,不能用于长应用程序和大型数据集。 此外,仿真不能用于指导已部署系统的软件监视和动态优化。
本文介绍了Mantis,这是一种全系统功率建模方法,它是非侵入式的,可以快速准确地预测服务器系统的功耗。 Mantis-使用广泛可用的低开销OS利用率指标和性能计数器来预测功耗。 它需要一次性的离线校准阶段来提取基本的AC功耗特性并将它们与系统相关联性能指标。 校准阶段仅对每个系统运行一次。 在应用程序运行期间,Mantis使用一组用户级系统利用指标估算总耗。 虽然Mantis无法提供仿真级别的准确性,因为它源自标准的用户级指标,但它仍然快速,经济高效且足够准确(大多数工作负载在10%以内)用于在线管理功耗。 它还具有足够的灵活性和便携性,可用于未来系统架构的功率探索。

这项工作的具体贡献是:

  • 我们提供了刀片系统的组件级功耗测量,并观察了对未来功率研究和功率建模的重要趋势。
  • 我们开发Mantis,这是一种新颖的非侵入式混合硬件 - 软件模型,用于基于高级系统利用率指标和硬件性能计数器的服务器系统上的AC功率预测。我们的模型提供丰富的功能,因为它可以预测峰值和平均功率以及功率的时间变化。
  • 我们在两个截然不同的服务器系统上对Mantis进行了原型设计,以展示其便携性并使用直接交流功率测量来验证其预测。我们验证模型准确地预测了功耗两个平台。

本文的其余部分安排如下。第2节描述了刀片系统的组件级测量和观察。第3节介绍了Mantis模型的设计,包括使用的测量和校准方法。第4节介绍了模型验证实验的结果,第5节介绍了Mantis的潜在应用,并为进一步的工作提供了建议。第6节介绍相关作,第7节结束本文。

II  功率测量与分析
我们研究刀片服务器的组件级功耗,以了解未来的功耗趋势。 该刀片非常适合此类研究,因为它已经采用了几种重要的电源管理技术:处理器的电压和频率调整支持,低功耗磁盘和低功耗电源。 通过我们的测量,我们尝试确定下一组功率瓶颈和功率建模的挑战。
A.方法论
虽然只需在系统和交流电源插座之间连接功率计即可获得整体服务器功耗,但元件级功耗需要测量系统板中不同组件的电压和电流压降。
我们的方法利用我们对系统板原理图的访问,并使用板级修改来研究服务器各个部分的功耗。 我们的刀片分为四个电源平面:

  • •12V平面,其功率预算由处理器和内存占主导地位(超过90%),
  • •5V平面,其功率预算由硬盘主导,
  • •5V辅助平面,
  • •3.3V平面,用5V平面计算网络,外围设备,稳压器,电源和系统的其他各种组件消耗的功率。

我们开发了功率测量和数据采集板,以同时测量和记录这四个平面的功耗。 由于处理器和内存都是总功率的大部分,我们进一步切入12V电源平面(拆焊组件以增加额外的检测电阻)以隔离处理器电源。
B.结果和观察
在本节中,我们将讨论上述结果中常见的一些高级趋势,并讨论潜在的陷阱和未来工作的机会。

图1 刀片测量功耗的组件故障

铭牌评级不准确。图1提供了刀片系统的绝对功耗和元件级故障的信息。这些数字与这些机器的铭牌额定功率的比较显示出显着差异。对于刀片系统,铭牌额定功率高估了近50%,并且过高估计了各种组件的重要性。当考虑到当前通常的做法是在配置和优化系统时使用铭牌功率时,这一点尤为重要。
内存耗电量。关于系统中能源瓶颈的传统直觉已经将处理器确定为服务器功率的最重要组成部分。我们上一节的讨论表明,未来内存功耗可能同等重要,甚至更高。与支持电压和频率调整等技术的处理器不同,内存的功率优化仅限于向低功耗状态的转换。虽然有几项很好的研究评估了这种方法的潜力,但开发其他方法也很重要。这在将存储器模块转换到较低功率状态可导致带宽减少或延迟增加的情况下特别有用。

 

misc组件的功耗。我们的功耗表征中的一个有趣的观察结果是在非处理器和存储器组件上花费的大部分功率。例如,超过30-40%的功率花费在磁盘,网络,I / O和外围设备,电源,稳压器以及服务器中的其他粘合电路上。有趣的是,只有磁盘和电源才是这个系列的唯一贡献者。在组件级别,有超过30个其他组件可用于此类别中的剩余部分功率。因此,解决这些问题的方法需要考虑更全面的服务器设计解决方案。正如随着“卡上服务器”方法的日益小型化导致芯片组和控制器领域的相应整合,潜在的解决方案可以利用更大的整合来实现更精细的控制能力。此外,关闭未使用的组件的积极解决方案也将是有益的。

III  躁狂症模型
A.概述
Mantis通过将一些用户级利用率指标或硬件性能计数器与校准阶段的功耗相关联来捕获系统的功率特性。 然后,使用派生的模型参数来基于相同的用户级利用率度量或硬件性能计数器来预测功耗。 因此,Mantis可以计算系统的总体平均功耗和瞬时功耗。 利用率度量和计数器的更新频率限制了瞬时功率估计的频率。

图2 Mantis模型开发和使用的各个阶段。

图2说明了开发和应用Mantis模型的过程。第一阶段是在连接到交流功率计的系统上运行校准过程。校准过程包括基准,这些基准分别对被测系统的每个主要部件施加压力,以便得出其利用率和功耗之间的基本相关性。第二阶段是基于在校准方案期间获得的性能度量和AC功率数据来制定模型。线性程序用于将模型参数拟合到数据,将性能指标与系统的AC功率变化相关联。校准和模型推导过程需要针对特定​​系统类型运行一次,最有可能由其供应商1运行。此类供应商提供的额外功率测量[3]存在先例。在这种情况下,Mantis的最终用户将进入最后阶段,功率预测。在此阶段,我们会在运行感兴趣的工作负载时,通过操作系统或硬件计数器持续监控利用率指标。基于指标和模型参数,我们可以得出总体和组件级功耗的准确预测。功率估计可以直接提供给调度程序或保存以供离线分析。每个工作量都会重复这个最后阶段。它对用户没有任何负担,例如使用AC功率计。感兴趣的工作负载在被测计算机系统上全速运行,与提取利用率度量和计算梯度相关的微小开销。

图3 控制和测量系统初始化工作负载执行。 然后,它记录被测系统的性能指标,同时从交流功率计接收功率测量值。 

B.测量功率和利用率
对于Mantis校准阶段,我们测量了每台服务器在运行特定工作负载时消耗的交流电。 OS性能指标和硬件性能计数器都用于测量系统活动。 使用的操作系统指标是CPU利用率和硬盘和网络的I / O请求率。 它们是在两个SAR系统上收集的[1]。 硬件性能计数器用于为主存储器提供更精细的粒度数据(片外未命中)。 我们使用perfctl和perfmon等模块收集了性能计数器编号[2]。

1如果系统提供多种配置,供应商可以为每个可能的组件执行校准阶段。 然后在客户现场获得最终模型,其中确切的配置是已知的。 在大多数情况下,客户无需测量交流电源进行校准。 

所有功率和利用率测量均在图3中的系统控制之下,以确保数据正确同步。

C.校准

在校准阶段提取每个主要贡献系统功耗的基本功率特性。在记录利用率测量的同时运行以受控方式隔离和压力系统组件的工作负载。然后,数据通过线性程序运行,以得出功耗和组件利用率之间的线性关系。
Gamut [17]模拟具有不同级别的CPU,内存,硬盘和网络利用率的应用程序。准确地对部件进行建模要求校准方案的至少一个阶段单独地对每个部件施加应力。我们将Gamut配置为在每次运行中隔离一个组件并改变组件利用率。为了在空闲时准确地模拟系统的功耗,其中一个校准阶段必须是空转。本文介绍的Mantis模型的校准阶段包括空闲运行和Gamut配置,强调CPU,内存,硬盘和网络。
线性程序将利用率度量与功耗相关联,同时最小化所有校准阶段的模型的绝对误差。利用率测量被编译成矩阵M,每个度量具有一列,每个时间样本具有一行。功率测量值以矢量\vec{P}meas编译。矩阵M乘以每个度量(模式解)的模型参数向量⃗s,以产生包含每个时间样本的功率预测的\vec{P}pred

\vec{P}pred = M\vec{s}

预测功率对测量功率的误差定义为\vec{\epsilon }\vec{\epsilon }的值计算如下,其中i索引向量元素:

\vec{\epsilon } = \frac{Ppred,i-Pmeas,i}{Pmeas,i}

\vec{\epsilon }被分成n个分量,每个分量包含N个校准阶段之一的误差测量值。 每个校准阶段的平均误差定义为\hat{\epsilon}n

在保持线性度的同时最小化绝对误差需要将线性程序的目标函数定义为模型的正误差和负误差之间的差异。 变量{t}^+{t}^-被定义为分离正误差和负误差,它们的差值{t}^+-{t}^-是模型的绝对误差。 线性程序的目标函数是在N个校准阶段期间模型的绝对平均误差之和,使用,{t}^+n{t}^-n,其中n表示校准阶段:

min\sum_{n=1}^{N}{t}^+{n}-{t}^-{n}

s.t.

t^+n \geq \hat{\epsilon }n

t^-n\leq \hat{\epsilon }n

System

Blade Server

Itanium Server

CPU

2.2GHz AMD Turion

4x1.5GHz Itanium 2

Memory

512MB SDRAM

1GB DDR

Storage

40GB 2.5” Hard disk

36GB 3.5” Hard disk

Network

10/100MBit Ethernet

10/100MBit Ethernet

图4 本研究中由Mantis建模的系统。

最小化目标,同时改变模型参数(\vec{s})以得到具有最小预测误差的模型参数。

D.实施
我们在两个非常不同的服务器系统上实现了Mantis。 第一个系统是高度集成的刀片服务器,包括AMD Turion处理器。 刀片系统已针对功耗进行了优化。 第二个系统是一个包含4个Itanium2芯片的高端服务器。 Itanium服务器针对峰值性能进行了优化。 对于我们使用的这些特定配置,两台服务器的内存,磁盘和I / O系统类似,但通常Itanium服务器有更多空间用于额外的内存和磁盘。
模型预测粒度受到利用率度量更新速度的限制。 对于两个系统,预测粒度为1秒。
我们应该指出,Mantis将被实现并用于任何其他系统。 尽管如此,我们还是对所研究的两个系统进行了实施,以使讨论不那么抽象。

这些特定模型中使用的利用率指标为:
u_{cpu}:CPU利用率,
u_{mem}:片外存储器访问次数,
u_{disk}:硬盘I / O速率
u_{net}:网络I / O速率
包含使用线性程序导出的参数的建模功率方程如下:
Pblade = 14.45 + 0.236 * u_{cpu} - (4.47E-8)* u_{mem} + 0.00281 * u_{disk} +(3.1E-8)* u_{net}
Pitanium = 635.62 + 0.1108 * u_{cpu} +(4.05E-7)* u_{mem} + 0.00405 * u_{disk} + 0 * u_{net}
两个等式中的第一项是表示空闲时系统功耗的常数。 在下面的部分中,我们将评估Mantis建模方法在实践中的运作情况。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值