IBM借Power6微处理器为频率地位正名

在多线程、多内核时代，频率是否无关紧要？5年前，当英特尔宣布其有关架构的思想将发生转变时，似乎给出了肯定的答复。但在一款将用于一系列服务器的Power微处理器中，IBM公司展现了通过增加频率改进性能的例子。

英特尔集团副总裁Pat Gelsinger早在2001年的国际固态电路大会(ISSCC)上就曾透露，英特尔将不再通过刻意追求频率的方式来保持功耗稳定，而将转向多线程双核设计。太阳微系统公司(Sun Microsystems)也采取了类似行动。

但在今年的ISSCC上，IBM却反其道而行之，重新拿起频率作为竞争的武器。IBM设计工程师提交了三份文件描述即将推出的Power6微处理器，Power6是为IBM自己的pSeries服务器开发的。目前销售的双核Power5+是采用90nm工艺制造、工作在1.9GHz范围(不久将有更高频率的版本)的一种设计。采用65nm工艺的Power6是首款工作在4到5GHz频率范围的处理器，将用于明年推出的服务器上，IBM的技术研发副总裁Mark Papermaster表示。

“我们不想对频率视而不见，”Papermaster表示，“否则，你将与造成芯片发热的主要原因失之交臂。但频率与性能之间仍有关系。”

“英特尔从胜负未卜的局面中抽身而退之际，IBM却开始推动频率的爆炸，”The Envisioneering Group的主管Rick Doherty表示，“英特尔拱手认输。他们不再尝试跨越3.5 GHz频率。”

当Sun拥抱多线程时，也冷落了频率。IBM的Power6将有单核和多核版本，每核2个线程；而在Sun公司现已出货的Niagara微处理器中，每处理器核有4个线程，共计32个线程，工作于1.2 GHz。Sun的技术总监Ana-Sonia Leon称：“Niagara有一条非常浅的流水线，是一款单发送、顺序执行处理器，其总功耗为63W，每线程平均不到2W。”

“频率没给我们带来性能，”Leon表示。“我们通过增加线程来改进性能。我们很清楚，这是正确的道路。”

《微处理器报告》的总编Kevin Krewell表示：“当有大量线程空闲等待任务时，Sun的多线程方法工作很好。Sun能并行利用Niagara内的处理器核。但IBM拥有需要极强数据处理能力的客户，这是它们将于Sun的Rock服务器短兵相接的领域(Rock是Ultrasparc设计的下一个重要升级版)。”

IBM Power6的首席工程师Brad McCredie表示，IBM采用了1条13级流水线——7级用于浮点运算单元、6级用于整数运算，与Power5的相同。但Power5中需要22个“4路扇出”逻辑级(其中，一个反相器驱动其它4个)完成的任务，现在，在Power6中，用13个“4路扇出”逻辑级就能实现(每级流水线一个)。

“通过使逻辑‘动’起来，可以提升性能，”McCredie表示，“我们将频率加倍，并保持流水线深度不变，从而使每个逻辑级能发挥更大功用。目标是从每个晶体管中获得更多逻辑功能。如我们不采取这种作法，将使流水线级崩溃。某些公司采用20、30和40个流水线级，实是命悬一线。”

IBM对更高频率意味着更大功耗这点不置可否。“降低功耗的实用手段是监测设计的晶体管数，”McCredie表示。他还补充说所有晶体管都不相同。例如，缓存是非常有规则的结构，所以其阀值电压可以更高。就功耗而言，对闪存进行操作比操作逻辑部分所需的功耗低。

双核Power6有7.5亿只晶体管，比英特尔的Montecito版安腾(Itanium)少约1百万只，IBM的技术评估项目经理Joel Tendler表示。

McCredie表示，Power6有第二个片上存储器控制器，以使存储器带宽加倍。“我们费尽心机确保带宽能随处理器而变，”他说。

Tendler拒绝透露缓存大小、操作电压或功耗。他说，对IBM客户重要的是服务器级功耗，而非芯片级功耗。IBM单讲频率但不说相应芯片级功耗的举动令ISSCC的与会工程师颇有微词，一位英特尔的工程师就称这毫无意义。

在ISSCC上，并没透露Power6的某些技术细节。Power6的电路主管Brian Curran表示，二进制浮点单元(BFU)采用高阀值电压晶体管以降低漏电流。BFU运行在4GHz、工作于1.1 V时的功耗为310mW。在采用相同流水线、每周期指令数和锁存周期开销的条件下，Power6的BFU采用54个“4路扇出”逻辑级，而Power5是91个。整数执行单元需要78个“4路扇出”逻辑级，在运行在4GHz、1.1 V时，功耗为160mW。

Curran表示，IBM将动态单元的使用降至最少，以降低功耗。另外，“我们设计的电路执行不止一项功能，每个电路都担负更多任务。我们将上述举措与低的锁存延迟结合起来；一个更低的延迟设计帮助了更高频率的实现。”他说。

IBM的工程师在实验室中，演示了一款运行于5.1GHz、工作在1.3V的Power6，Curran表示。

英特尔安腾电路和技术主管Sam Naffziger表示，IBM“借用”了首先发轫于英特尔的理念，例如，大量采用脉冲控制的锁存器而不是主/从型的翻转触发器。据他说，早先IBM和英特尔的设计使用的是主/从翻转触发器。“脉冲控制锁存器的开销只有主/从锁存器的一半，这样就能在每个逻辑级中节省1到2个‘4路扇出’，”他说。

“对电路进行调整以从相同的流水线中得到更高频率，IBM干得很漂亮。”他接着说，“频率的确有其作用。如能保持相同的流水线深度和功耗，更高频率当然能提升性能。”

“英特尔工程师仍在进行提高频率的工作，”Naffziger声称，“在安腾系列中，继Montecito后的Tukwila版将有更多的高频核。”

英特尔的微处理器研究总监Shekhar Borkar表示：“英特尔早在1999年就认定高频下的低‘4路扇出’不省电。我们从1.6 GHz的Centrino处理器开始，将重点从高频和功耗方面转移。

IBM落在了后面。”

在ISSCC上，英特尔的工程师Stefan Rusu描述了英特尔的双核Tulsa。Tulsa是一款65 nm的Xeon服务器处理器，运行于3.4 GHz，功耗为150W。Rusu介绍，Tulsa有一个16MB的L3缓存，共计13.28亿只晶体管。该晶体管数在目前报道过的衍生于X86架构的设计中是最多的。

Rusu说，英特尔没有在缓存中采用多个晶体管阀值电压(在Tulsa内，采用多个晶体管阀值电压是降低功耗的通用技术)；相反，缓存中大量使用更长沟道长度的晶体管。这种晶体管以较慢的频率运行，但漏电流降低了3倍，他说。

McCredie介绍，IBM采用了3个阀值电压，并对Power6的沟道长度进行调节以在漏电流和性能之间取得平衡。

作者：来大伟