45nm Penryn家族成员众多
【IT168评测中心】Intel的Tick-Tock平台战略正有条不紊的推行着,Intel将会将处理器平台全面由65nm平台转向 45nm平台,新的处理器家族被称为Penryn,关于Intel的45nm Penryn相信大家都已经从铺天盖地的宣传中已经很熟悉了。Penryn处理器具备了强大的计算能力和极低的功耗,它包含3个产品线共7名成员,包括有 双核心桌面处理器Wolfdale、四核心桌面处理器Yorkfield、双核心移动处理器Penryn、双核心Xeon DP处理器Wolfdale DP、四核心Xeon DP处理器Harpertown、双核心Xeon MP处理器Dunnington DC及四核心Xeon MP处理器Dunnington QC。
Intel全线服务器产品线路图
按照既定的计划,Intel将会在11月份发布16款45nm Penryn家族处理器,其中包括了一款桌面级的Core 2 Extreme QX9650处理器,其他的15款都属于服务器处理器平台,其中12款全新四核处理器的主频均在2 GHz-3.20 GHz之间,前端总线速度(FSB)高达1600 MHz,而且高速缓存规格为12 MB。另外3款全新双核处理器的主频则高达3.40 GHz、FSB高达1600 MHz、高速缓存为6 MB。
关于45nm Penryn桌面级Core 2 Extreme QX9650处理器, 我们已经做了详细的测试,其多媒体性能大幅提升、功耗大幅下降,让人怦然心动。服务器的45nm Penryn处理器性能如何呢?国内著名的服务器厂商浪潮在第一时间送来采用了45nm Xeon DP E5440处理器(代号Harpertown)的服务器平台,我们IT168评测中心第一时间对这款NF290D进行了全面的评测。通过本文,读者可以了 解到45nm Penryn Xeon服务器处理器具有的实力,并对45nm Xeon平台都会有更深入的认识。
服务器处理器平台中,Xeon DP系列是最常见的处理器之一,Xeon DP处理器经历了Paxville DP(双核,Netburst)、Dempsey(双核,Netburst,Benlsey平台)、Woodcrest(双核,Core,Benlsey 平台)和Clovertown(四核,Core,Benlsey平台)这样的一个历程,现在45nm平台中,Xeon DP也升级到了Wolfdale DP(双核,增强Core架构,Stoakley平台)和Harpertown(四核,增强Core架构,Stoakley平台)。
代号 | 型号 | SMP | 主频 | FSB | L2 | TDP | 接口 | 制程 |
Clovertown | Xeon E5310 | DP | 1.60 | 1066Mhz | 8MB | 80W | LGA771 | 65nm |
Xeon E5320 | DP | 1.86 | 1066Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5335 | DP | 2.00 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5345 | DP | 2.33 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon X5355 | DP | 2.66 | 1333Mhz | 8MB | 120W | LGA771 | 65nm | |
Xeon X5365 | DP | 3.00 | 1333Mhz | 8MB | 120W | LGA771 | 65nm |
当前主流4核Xeon: Clovertown
代号 | 型号 | SMP | 主频 | L2 | TDP | 制程 |
Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
45nm Xeon DP包括了两个型号:Harpertown和Wolfdale DP。代号为Harpertown的Xeon DP处理器是四核处理器,代号为Wolfdale-DP的处理器为双核处理器,它们都是Penryn架构处理器衍生产品,均采用了45nm High-k制程技术。从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔? SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC 和企业应用。据称,与前代四核Intel Xeon DP 5300系列处理器相比,45nm High-k Intel Xeon处理器的性能功耗比提升了38%,进一步巩固了其性能功耗比领先优势。
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP依然为50瓦、80瓦和120瓦,并且频率规格也有所 提高,最高端的Xeon E5460处理器可以达到3.16GHz,而上一代Xeon X5365只有3.00GHz,这意味着新的Harpertown平台的计算密度可以得到很大的提升。
在Intel的Tick-Tock战略上,Penryn是45nm工艺的第一个处理器产品线,因此其核心架构在Core微架构上进行改良,除了45nm工艺带来的电气改进之外新的Penryn微架构主要有5方面:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从基础上提升了处理器的运算性能,包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术。
虽然45nm Penryn的并非基于全新的架构,然而在测试当中,45nm桌面处理器QX9650的性能有了比较明显的提升,因此我们预计,从Clovertown到Harptertown也会具有相似的结果,下面我们先来看看微架构上影响性能的这些主要改进。
基本上,45nm Penryn处理器的架构和Core 2架构很相似,微架构方面的主要改进如下:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
Faster Radix-16 Divider(快速Radix-16除法器)
虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目 前最顶级的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且 Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
Faster OS Primitive Support(更快速的操作系统基础支持)
Penryn通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的中断 请求来分配处理器资源给各个部件,而在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI /STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯 片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)
作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。
Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2 缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)。
SSE4——Penryn搭载的SSE4.1指令集主要分为三个部分,分别是SSE4视频编码加速部分、SSE4图形加速部分和SSE4流加载部分,其中SSE4视频编码加速部分包括了14条指令,用于加速4x4绝对差和、子像素过滤一击数据查找方面的性能。
在进行视频编码时,需要进行大量的Motion Estimation(动态预测),动态预测是视频编码过程中极其重要的一个环节,它的算法效率对整个编码效率有很大的影响,而这个动态预测需要进行大量 的SAD(Sums of Absolute Difference,差分绝对值和)的运算,该运算是大部分视频编码算法中运动估计一步常采用的方法。SAD算法将会在相邻两个连续视频帧中找出一个大 块的运动情况,以纪录其运动数据代替纪录像素数据而节约存储容量、压缩视频。为此,SAD需要计算两个大块中每一组对应的像素值之间绝对差值的累加和。这 本身就是一个非常复杂的大数据量运算动作,即使依靠SIMD指令的一条指令就处理大量数据的优势,要组合成SAD操作代码也需要大量的指令。
现在,SSE4指令集内特别加入了SAD加速运算指令,只需要一条指令就可以快速高效地完成这些工作。例如,在SSE4之前,一个SAD工作代码如下:
非常的冗长繁琐,而在有了SSE4之后,这些指令就可以简化为一条指令:
MPSADBW xmm0,xmm1,0
简化量是非常巨大的。而在复杂的动态预测程序中,要执行复杂的SAD代码,这时SSE4还可以额外提供更高的方便性:
SSSE3可以看作是SSE4的一个提前“泄露”的子集,同样的工作,右边的SSE4代码无疑要比SSSE3更为简捷。
SSE4当中还加入了快速查找的指令,虽然并不仅仅是视频编码才能具有作用,然而对于整位像素和子像素运动估计方面具有特别好的效果,如下图的指令可以在8个元素中找到最小的一个元素,并找到其位置:
在Intel的SSE4展示当中,使用搭载SSE4指令集的2.66G Wolfdale Core 2系统对比2.33G Core 2 Duo E6550进行Pegasys TMPGEnc 4.0 XPress HDTV编码,最后得到了55%的性能提升,其中加速的SAD处理和快速查找在各自的领域的性能提升达到了2~3倍,SSE4指令集的作用可见一斑:
其中,CPU的频率提升只有14%,总应用程序提升却达到了55%,这就是SSE4视频编码加速指令的作用了。
Penryn架构中SSE4相关的改良还有一个:就是Super Shuffle Engine,Intel称之为超级乱序引擎,不过我们认为称之为超级传送引擎更为贴切一些:
Super Shuffle Engine超级传送引擎
Super Shuffle Engine其实是加速SSE相关数据的传输转移过程,包括打包、解压、对齐、宽进位等操作,都可以通过Super Shuffle Engine来加速,从而可以在每个时钟周期内完成128位的操作。这个加速是完全硬件的,不需要软件的变动。
SSE4目前看来对视频服务器的性能提升强于对桌面系统的提升,然而由于SSE4指令集也有很多基本的运算加速指令,我们以后将会详细考察这个指令集在服务器实际性能上是否会有提升。
作为一种“平台化策略”,Intel在发布处理器的时候也会为其准备相应的芯片组。45nm High-K Xeon DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台完全兼容,此外,Intel还将推出三款平台解决方案来支持45nm Xeon DP处理器,它们分别是:
基于Intel 5400芯片组的平台(代号为Stoakley),专门针对高性能计算(HPC)等需要高带宽的应用进行了优化,作为Harpertown的主流配合芯片组,我们将主要对其进行介绍;
基于Intel 5100芯片组和Intel ICH9R芯片组的平台(代号为Cranberry Lake)。这些成本优化型解决方案能够支持单路或双路处理器,同时还使用原生DDR2内存来降低能耗;
基于Intel 3200芯片组的平台(代号为Garlow),专为单路入门级服务器而设计。
当前的Bensley平台由64nm Clovertown处理器和5000芯片组组成
现有的Bensley平台可以完善地支持新45nm Xeon DP处理器,包括了5000V、5000P、5000X北桥,Bensley平台将处理器的最高FSB频率限制在了1333MHz,因此只适合比较底端的Harpertown处理器。
5000P北桥采用了DIB前端总线,速率是1066/1333 MT/S,两条FSB的最大总带宽刚好和内存带宽一致,5000P提供了4通道667MHz FB-DIMM支持,每通道带宽5.3GB/s,总共就是21.2GB/s的巨大内存带宽,每个通道支持4个Dual Ranked FB-DIMM DDR2 DIMMs,最大总容量达到了64GB。5000P还能支持Memory RAID 1(miroring),可以提供更强的容错性,此时最大有效内存容量就变为装载内存的一半,最大是32GB。5000V则是5000P的简化版本,可重 配置的PCI-E x8界面少了一个,FB-DIMM内存通道也降低到了两个,连带总内存容量也降低到了32GB(在Memory RAID 1下,就是16GB),面向相对低端的服务器市场,而最高端的5000X应该是5000系列中最强的芯片组型号,不仅仅是因为具有一条可以拆分为4个 PCI-E x4的PCI-E x16插槽用于连接高带宽的显卡,还因为它配备了特有的Snoop Filter探听过滤器功能,可以大大提升多总线、多执行核心环境的性能表现。
探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要 的探听,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。最早是IBM将Snoop filter功能引入到其X3芯片组中,随后英特尔Blackford芯片组中也引入了该功能。5000X芯片内总共具有16MB的Snoop Filter缓存。Stoakley平台——基于Seaburg芯片组将能提供达24MB的Snoop Filter缓存。
除了强大的FSB带宽和内存带宽之外,5000P还配备了强大的I/O能力,包括两个可重配置的PCI-E x8界面和一个ESI南北桥界面。ESI是Enterprise Southbridge Interface的意思,从各方面看都和桌面芯片组的DMI总线差不多,都是2GB/s的双向链接带宽,内部都一样基于PCI-E技术(加入了一些新的 指令),不同的地方在于,ESI总线可以并入最多两个PCI-E x4总线用来扩展带宽,5000P的PCI-E x8分开配置的两条PCI-E x4界面刚好符合要求,这样ESI总线最多可以提供6GB/s的南北桥带宽,目前来看已经足够支持外部设备了。当然外部设备不通过南桥直接用PCI-E和 5000P连接也可以。
Stoakley平台由45nm Harpertown处理器和5400芯片组组成
新的Stoakley平台——基于Intel 5400芯片组——可支持现有的65nm制程的Xeon 5100和Xeon 5300处理器,最主要地支持45nm、High-k制程双核/四核处理器。
新平台的MCH芯片代号为Seaburg,型号为5400,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可 提供17-25.6GB/s的数据传输带宽——这也意味着未来的45nm双核或者四核Xeon处理器的FSB将会达到1600MHz。为了保证双路四核系 统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter的存在,现在Seaburg将5000X的16MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓 存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的探听,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg。Seaburg 所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
Seabury MCH依然通过ESI总线同631x ESB/632x ESB I/O Controller Hub通讯。Intel ESB芯片的开发进度似乎很缓慢,我们分析这应该是同PCIe总线应用越来越多有关,大部分的高吞吐量设备都可通过PCIe总线同MCH通讯,ESB更多 的是保持对于传统设备和低速设备的支持。
Seaburg提供了44条PCIe x1(PCIe 1.x)通道,相比Blackford多出了12条,而且这些PCIe通道均可灵活配置,因此可充分满足连接多个高速设备的需求。Seaburg还提供了 两条PCIe x16(PCIe 2.0)通道,可用于支持显卡等设备。
Stoakley平台还能提供2个千兆以太网端口和1个万兆以太网端口,此外可利用Intel IOP 348处理器实现对于SAS/SATA 3Gb/s设备的支持。
根据IDC六月份终端用户调查报告显示,2007新购买的x86服务器中有40%被用于了虚拟化应用,还预计今年部署了虚拟化应用的服务器会占 所有服务器数量的10%,到2010年的时候可能会接近20%,虚拟化市场已经开始成熟。Intel自然也不会放过这个市场。Intel认为具有卓越的性 能、高度的可靠性平台将会有助于推动虚拟化应用的进一步普及,现在,新的45nm处理器搭载了多种虚拟化方面的增强技术。
从VT-x/VT-i到VT-d,再到I/O AT/VMDq
Intel将其虚拟化战略分为三步走。用于X86架构的VT-x和用于安腾架构的VT-i都是基于CPU的虚拟化技术,它们都是在CPU中增加 了专门的硬件辅助电路,帮助提升虚拟化的效率。VT-d虚拟化技术则着眼于整个平台,芯片组和相关的I/O设备也加入了进来。第三步则是在I/O层面上的 虚拟化,I/OAT2技术已经初步的实现了部分功能。
在Intel没有推出虚拟化技术之前,所有虚拟机VM的各种请求(比如逻辑处理器、逻辑I/O设备)都需要经过 VMM软件的转换和维护,这个过程是纯软件的过程,因此占用系统资源高,效率低下。更要命的是,所有的内存存取都经过VMM控制会有安全隐患,产生错误的 几率也会增加,影响了虚拟化的隔离性和可靠性。
在VT-x技术中增加了两个全新的执行模式VMX Root模式(用于VMM)和No-Root模式(用于Guest OS),这样可以让虚拟机上的操作系统直接运行在Ring 0上。此外还增加了VM Entry和VM Exit两种转换模式。VM Entry进程包括从VMM向Guest传输指令或者数据,进入到Non-Root模式,从VMCS载入Guest状态和VM Exit条件。VM Exit进程包括从Guest向VMM传输指令或者数据,进入到Root模式,在VMCS保存Guest状态并且重新载入Guest状态。这些功能的实现 主要借助基于硬件的VMCS(VM Control Structure)来实现。
在上一代的VT-x技术基础上,45nm Penryn的虚拟化性能也获得了持续的改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
VT-d则是在平台层面上实现了I/O虚拟化(主要体现在整合于芯片组内的专用电路),它定义了一个用于DMA重映 射的架构,可直接将I/O设备分配给未经修改的VMs或者半虚拟化VMs。不仅Stoakley平台会支持VT-d,未来更多的Intel服务器平台都会 支持这些功能。关于VT-d的更详细的解析,可以参看:从VT-x到VT-d Intel虚拟化技术发展蓝图。
I/OAT2平台级I/O优化方案
随着新45nm处理器的升级,Intel也计划全面升级Xeon DP和Xeon MP服务器平台,无论是定位于嵌入式应用的Cranberry Lake平台、还是定位于主流双路处理器的Stoakley平台、或者是定位于多路处理器的Caneland平台,都将会支持新一代的I/OAT2技术 (代号Crystal Beach2),I/OAT技术是和虚拟化技术紧密相关的。
I/OAT2有两个主要的设计目的,第一个是进一步增强数据中心网络I/O能力,第二个继续保持Intel I/OAT的无状态架构优势。同样,I/OAT2依然是一个平台级的I/O优化方案,涉及到了CPU、芯片组、网卡控制器、等多个方面。
第一代的I/OAT通过增强软件接口、软件预取到CPU、优化数据流等措施,实现对于TCP协议栈的优化处理。新一代的I/OAT2利用 DCA(Direct Cache Access,直接高级缓存访问)技术,进一步降低频繁存取内存对系统性能所造成的负面影响。I/OAT2通过芯片组支持QuickData技术,该技术 通过直接将网络数据放入内存中无需处理器参与,从而加速了标准网络数据的传送过程。Intel在此基础上增加了DCA和MSI-X等功能,以提升数据传输 和复制的效率。
支持IOAT2的网卡控制器不仅支持无状态卸载,TCP分配&效验和卸载,优化多队列&数据流,分离头部/有效负载等功能,还通过增加对于DCA、MSI-X、中断快速响应、头部分离/复制等功能的支持,提升IO效能。
可以看到DCA和MSI-X两个功能是此次IOAT2所带来的主要改进。DCA(Direct Cache Access,直接高级缓存访问)基本工作原理是使得CPU高速缓存中的数据可以被网络控制器优先访问,一方面充分利用缓存中的数据,另外一个方面利用高 速缓存低延迟的特性,来避免CPU频繁的访问内存,降低系统开销。DCA有两种基本的工作模式,当处理小型I/O任务的时候,甚至不需要芯片组中 QuickData引擎的参与,只有当处理大型I/O任务的时候才需要。
MSI-X(Extended Message Signaled Interrupts,扩展消息信号中断)是MSI(消息信号中断)的增强版本,是PCIe 1.1规范中增加的新特性,可以将PCIe总线中的数据封包进行更灵活的分割,满足不同应用的需求。在I/OAT2中结合了直接内存访问、选择性中断行为 的流量区别等功能,提供了更快的中断速度。
I/OAT2还支持头部分离/复制这一新特性。头部分离是TCP/IP协议处理过程中一个必不可少的过程,I/OAT2将来自数据/有效负载 的TCP、IP头部放入不同的内存缓冲中。头部复制动作则是将头部进行拷贝并放置于不同的缓冲中,然后将整个数据包放入另一个缓冲中。头部复制可用于处理 更长的头部。
在服务器虚拟化应用中,由于多个VMs共享一个网口,会由于VMM软件的开销影响而导致I/O性能损失非常的大。支持I/OAT2的平台会在平 台和网卡硬件上都进行相应的改进,可提供更高效的网络数据传输,比如VM、VMM网络协议栈处理效率均可受益,该技术还可以加速数据从网络NIC硬件队列 到虚拟NIC的移动。此外还利用了VMDq(NIC使用多硬件队列给VMM软交换机加速)来提升虚拟化应用的效能。
VMDq通过排序和分类封包来提升虚拟机应用中共享网卡的效率。如上图所示,在发送数据的时候,实行轮叫发送队列服 务,确保公平发送,防止出现线头阻塞(Head-of-line blocking, HOL)现象。在接收数据的时候,VMDq部分将属于不同VMs的封包分类,然后由VMM成组的发送到VM,从而减少VMM交换机代码执行的次数,以获得 较高的效率。
经过了1年多的推广,I/OAT技术已经得到了业界广泛的支持,比如MS Server 2003 SNP、Linux Kernel 2.6.18、SuSE Enterprise Linux Server 10、Redhat Enterprise Linux 5.0都已经支持I/OAT技术,VMWare也计划在下半年推出的VMWare ESX Server 3.5中增加对这一功能的支持。
功能 | IOAT1(Bensley) | IOAT2(Stoakley/Caneland) | IOAT3(Next Gen Platform) |
Intel QuickData Tech(Data Movement engine)BW | 2GB/s | 2GB/s | 4GB/s |
DMA通道数量 | 4 | 4 | 8 |
LAN stateless offloads (Header/data split, Receive Side Scaling, TX/RX checksums, TCP segmentation) | 支持 | 支持 | 支持 |
Message Signaled Interrupts | MSI | MSI-X | MSI-X |
Direct Cache Access | 支持 | 支持 | |
Low Latency Interrupt | 支持 | 支持 | |
Optimized Header-Splitting / Replication | 支持 | 支持 | |
Multi-VM Direct Assignment of Data Movement Engine | 支持 | ||
Required LAN Si | IOAT1 | IOAT2 | IOAT3 |
Gilgal Dual GbE PHY | 支持 | ||
Zoar Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
Kawela(Adoram) Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
Oplin Dual 10 GbE MAC | 支持 | 支持 | 支持 |
Niantic(Hadar) Dual 10 GbE MAC | 支持 | 支持 | 支持 w/RSC |
从VT-x到VT-d,再配合I/OAT2,45nm服务器平台提供了完善的虚拟化能力和IO能力,这些都可以实质性地提升最终产品的能力。
我们收到的浪潮英信NF290D是45nm服务器平台的先行者之一,浪潮英信NF290D采用了2U规格设计,在扩 展度、价格、密度方面达到了很好的平衡。在浪潮290D的前面板上,必须的开关、指示灯之外,具备了6个热插拔3.5"硬盘槽位置,可以插入SAS 3Gbps硬盘或者SATA 3Gbps硬盘。我们测试的配置安装了4个Seagate Cheetah 15K.5 ST314655SS硬盘,可以提供强大的磁盘IO能力。
浪潮英信NF290D前面板还提供了一个USB 2.0端口,以用于移动存储等。
此次推出的浪潮英信NF290D双路四核至强服务器,基于全新的Intel 45nm High-K Harpertown处理器设计,全新的制程可以以较低的功耗的同时提供更强的性能,从而最终提升计算密度、降低成本。
2个USB接口、后置VGA接口、后置9针公串口、集成双千兆网卡,这些为服务器的前后两方位维护提供了更多的选择。浪潮290D板位置之下是1+1的热插拔冗余电源,这一设计同样切合服务器关键应用持续与稳定的电力支持需求。
浪潮在NF290D的内部系统设计上,处处体现出优化风道、方便维护的理念。
在机箱的中央部分,是3个主风道风扇,它为整个机箱的散热风道提供了最主要的动力。这些风扇的最右边还预留了一个风扇的位置。
采用了SAS技术,因此存储设备的布线也变得简单了,风道也更为理想。
我们收到的配置上,浪潮NF290D配备的时ETASIS的双电550W电源,1+1 冗余配置,可以对2U的服务器提供充足的动力。
留意处理器散热风道:通过一个特别设计的金属盖,浪潮英信NF290D服务器在2U箱体的中央部分建立了一个包括了双路Xeon DP处理器、北桥、内存,以及PWM供电模块在内的散热通道,其动力由两个强力的机箱风扇提供,因此CPU散热器本身就可以去掉了风扇。
作为45nm服务器平台的先行者,浪潮英信NF290D没有采用最新的Intel 5400 Stoakley平台,而是采用了经济的Intel 5000V芯片组,这可以加快推出市场的速度,降低成本,这也可以看出NF290D服务器的定位:以合适的价格提供强大的计算能力。
和Intel 5000P相比,5000V芯片组在北桥的内存支持方面以及IO扩展能力方面有所不如:从4个FBD通道降低到2个,一方面降低了最大内存支持数量,一方面降低了内存带宽,这部分地影响到了性能。
Intel Harptertown Xeon DP处理器
散热管铜底散热器
浪潮NF290D的CPU散热器采用了热管设计,在测试当中可以保持CPU在较低的温度之下。这也和采用的45nm处理器制程相关:功耗、发热量都降低了。
图上方就是两个采用了45nm High-K工艺的Intel Xeon DP E5440处理器了,主频为2.83MHz,具备了2 X 6MB二级缓存,前端总线频率达到了1333MHz,并且两个Xeon DP具有独立的前端总线,再配合增强的内部微架构和革命性的SSE4指令集,浪潮英信NF290D的性能值得期待。
在前面的图片中,同样是LGA 771的处理器,正面上看65nm Clovertown和45nm Harptertown没有什么区别,背面就不同了,如上图,背面电容的分布具有了一些差别,可以让我们方便地区分:上者是新Harptertown,下 者是老Clovertown。
浪潮英信NF290D采用了简化版本的Intel 5000V芯片组,只提供了6条内存插槽。我们测试的配置为4条Ramaxel 1GB FBD-DIMM内存,规格为PC2-5300F-555。4GB的系统内存容量并不算多,浪潮英信NF290D最多可以扩充到16GB内存。
5000V芯片组的IO扩展能力也略不如5000P,不过在大部分的情况下,这不是什么问题。
浪潮英信NF290D提供了两个PCI Express插槽、两个PCI-X插槽和一个PCI插槽,其中PCI Express插槽分为一条PCI-E x8和一条PCI-E x4,其中x8插槽由Intel 5000V提供,x4(以及PCI-X)由ES6321ESB南桥提供,我们认为浪潮英信NF290D的阵列卡插在PCI-E x8插槽上更好,因为这样它可以避免和南桥的网卡等设备抢夺南北桥之间的ESI带宽,还可以与同样连接在北桥上的内存、CPU作最直接、快速的交流。
ES6321ESB南桥提供了两个PCI-E x4插槽和PCI-X 133MHz插槽,浪潮NF290D利用这些PCI-E x4界面实现了x8 SAS功能。实际上,浪潮NF290D在主板上就已经通过LSISAS1068芯片提供了x8 SAS界面,并且通过ZCR可以扩展到阵列功能,然而通常ZCR的性能通常逊于真正的阵列卡,因此浪潮NF290D仍然采用了一块独立的SAS RAID卡。
这8个SAS端口由板载LSISAS1068芯片提供,当然,它们也能兼容SATA设备。6321ESB南桥还能提供额外的4个SATA 3Gbps接口。
独立的LSI8308ELP SAS RAID阵列卡,可以提供RAID JBOD/0/1/0+1/5/6功能,具备了128MB的缓存,提供8个SAS端口,我们的SAS专题中对其进行过测试,我们对其性能表现很满意。这块卡采用了PCI-E x4界面。
集成XGI Volari网卡
测试平台简介
在本次测试中,我们将采用45nm处理器的NF290D服务器平台与双路Xeon 5310平台进行对比。两平台详细参数对比如下:
两平台同样为双路四核配置,新的NF290D平台在主板整合了Intel 5000V芯片组,很明显感觉其朝着更加经济实惠的方向发展,处理器依然采用Socket 771接口,而FSB总线带宽已经升级到1333MHz,L2也扩展到6M,至于内存,则采用频率更高的667MHz FBD,磁盘控制器则选配了8308E的SAS Raid卡。
我们在上述配置的两服务器平台上分别安装了Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1),正确安装了各个硬件的驱动程序,确保服务器工作在最佳的状态。
在网络与系统优化方面,我们将两平台采用同样的系统设置,并同时取消了网络负载均衡,以查看其基础性能表现。
相关参数功能介绍:
XDbit功能:Intel产品的内存保护功能,起到防止程序不正当运行的作用。关闭这项功能,在一些未能被系统正确识别的程序运行时,避免因报错而影响系统进程。
EIST功能: Intel产品的处理器自动调频与调压功能,起到减少工作时耗电量与发热量的作用。关闭此项功能,可以保障平台在进行大批量数据处理的时候,一直保持高速度运行。
C1 state: 当操作系统负载较小的情况下,会向处理器不断发送指令,通过降低处理器频率与电压将处理器能耗降低,如果与EIST功能进行配合使用,能够更好地控制系统空闲时间的能耗。关闭此项功能,可以让平台的处理状态时刻保持高速。
浪潮NF290D测试方法
由于本次的评测过程比较紧急,而为了尽快让大家了解配备新架构MP处理器Xeon 7300的浪潮英信NF520D2性能,我们此次仅挑选了最重要的处理性能、内存缓存性能、数据库网络应用辅以基本测试环节进行。具体测试项目如下:
-
SPECCPU2000 v1.2
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护 一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者 则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计 算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力, 可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。然后我们根据被测系统实际 可同时处理的线程数量,设定用户数量,分别运行SPEC base和SPEC rate base测试的结果(其中SPEC base代表系统执行某个任务的速度,而SPEC base rate测试代表系统可以同时处理任务的能力)。
-
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可 以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
-
SiSoftware.Sandra.SP1 v2007
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007 版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
IOMeter 2004.7.30
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户 端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的 CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的 PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处 理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench 性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的 影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服 务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台 收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
我们分别在两平台上运行SPEC base测试,以测试两平台处理任务的速度。
SPEC base测试包括浮点(fp)与整数运算(int)两部分。
浮点性能测试中包含了14个程序,分别代表量子色动力学(168)、浅水模型(171)、3D势场多栅格解算器 (172)、抛物/椭圆偏微分方程(173)、3D图形库(177)、流体动力学(178)、神经元网络(179)、有限元模拟:地震模型(183)、面 部识别(187)、计算化学(188)、数论(189)、有限元模拟:碰撞(191)、粒子加速器(200)、污染物扩散(301)。
从上表中我们可以看到,浪潮NF290D相对双路Xeon 5310平台总体成绩出现了67%的增长,而其中更有2项应用测试提升将近200%,3项应用测试超过200%,其中神经元网络测试项目提升幅度更是达到684%,可谓强悍。
整数性能测试中包括11个C程序和1个C++程序(252.eon),它们分别代表数据压缩(164、256)、电 路布线(175)、C编译器(176)、 最低成本网络流解算机(181)、象棋模拟程序(186)、自然语言处理(197)、光线追踪(252)、Perl应用(253)、计算机群论 (254)、面向对象的数据库应用(255)等应用。
在整数运算中,浪潮NF290D全面超越双路Xeon 5310平台。值得注意的是,在整数运算性能的12个针对不同方面的应用测试项目中,除了计算机群论外,其他11项目应用测试项目均出现超过100%的提升,而总体性能也达到174%的高位提升。
在内存缓存环节,我们采用Sisoftware.Sandra.Enterprise.SP1 V2007对系统进行测试。
从上表展示的结果可以看到,相对配置65nm双路Xeon 5310的服务器平台,配置45nm双路处理器的浪潮NF290D在内存带宽和缓存环节均有大幅提升,而在Cache and Memory环节的测试中,2KB-16MB数据块的测试结果都显示浪潮NF290D平台相对双路Xeon 5310有超过100%的提升,但事实上,45nm penryn处理器只对原Xeon 5310所采用的Core架构进行了部分优化,L2缓存也仅仅由4M提升到6M,其与NF290D所配置的667MHz的内存频率结合,相对双路Xeon 5310也不应该出现普遍而如此巨大的提升。之所以出现上述情况,应该与软件的运算机制有关。
负载峰值提升58%,NF290D展现极至Web性能
在Web性能的测试环节,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开 启了网络实验室中的60台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。我们针对两平台进行了动态项目的测试:
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的 CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的 PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处 理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
从上表中我们了解到,浪潮NF290D相对双路Xeon 5310平台网络负载的情况有明显的提升:
1)浪潮NF290D网络负载的峰值为10714 Request/s,双路Xeon 5310网络负载的峰值为6795 Request/s,浪潮NF290D网络负载的峰值相对提升58%;
2)综合接入不同终端数的情况,浪潮NF290D网络负载均值为7481 Request/s,双路Xeon 5310网络负载均值为5019 Request/s,浪潮NF290D网络负载的均值相对提升49%。
我们可以通过以下图形更直观地看到NF290D网络负载提升的情况:
平均提升57%,NF290D数据库性能高涨
我们在被测服务器上安装了Microsoft SQL 2000 SP4,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量 大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1600个用户,并且以8个一组依次增加,在这个数据库中进行查询、添加、删 除、修改等操作。在测试期间,数据的吞吐量很小,因此磁盘吞吐量和网络吞吐量都不会成为瓶颈。
上图直观地告诉我们,两测试平台的数据库性能差异非常明显:浪潮NF290D的数据库性能较双路Xeon 5310的数据库性能有爆发式的增长。
从后台精确的测试数据来看两平台具体数值差异:当接入终端数为800个时,浪潮NF290D服务器平台达到处理数据 库请求峰值86499 TPS,而双路Xeon 5310服务器平台处理数据库请求峰值仅为74151 TPS,浪潮NF290D处理数据库请求的峰值相对双路Xeon 5310平台提升达17%,而平均值的提升更是达到57%。
NF290D突出的功耗表现
浪潮NF290D服务器整体功耗
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
-
P1:连接电源但不开机状态
-
P2:系统启动完毕,5分钟内无动作,但不休眠
-
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
从上图我们可以直观地了解到,进行对比评测的浪潮NF290D与双路Xeon 5310服务器平台,两者功耗在满载时的功率是相同的,而当服务器处于空闲时段的时候,浪潮NF290D整系统所消耗的功耗要更低。
事实上,两者在硬件配置上是不同的:浪潮NF290D配备了4块万转SAS磁盘,而双路Xeon 5310仅配备了一块磁盘,但是另外一方面,双路Xeon 5310平台相对浪潮NF290D又多出4条FBD内存。此消彼长下,两平台在硬件配置上对功率的影响也是有限,大致可以判断两者在满载状况下的功率相 当。
IT168评测中心观点
【IT168评测中心】2007年11月12日,英特尔于美国一口气发布了16款45nm处理器产品,而接着在本周五,英特尔也将在中国大区推出其45nm处理器新品,NF290D于此盛时被作为浪潮第一款45nm机型推出,可见浪潮对其市场倚重。
从我们本次的评测结果了解到,无论是单机处理还是主流的网络应用,浪潮NF290D都有突出的性能提升,同时在功耗方面,配置Penryn处理器的NF290D相对65nm双路Xeon 5310服务器平台还有明显的降低。