ARM与x86之4--EAGLE is Coming!

1 篇文章 0 订阅

EAGLE isComing!

ARM的崛起使Intel陷入长考。

尚属Wintel帝国的PC领域无需担忧。帝国的成员已经历经过多次优胜劣汰。Wintel制定的多数策略能得到这些成员的支持,并使他们最终受益。IntelPC领域切走了最大一块蛋糕,也是众望所归,这与Intel在这个领域的付出成正比,更重要的是这个蛋糕正是Intel自己做的。PC帝国偶尔出现的纰漏,总能被Intel及时发现。进入帝国的大门被Windows系统牢牢把持,ARM阵营虽多次试探,仍被拒之门外。

在手机领域,Intel还不是局中人。在XScale架构之后,世上没有任何一款手机正在使用Intel的处理器。在这个领域,手机厂商,代工厂商,芯片提供商,操作系统提供商,相互交融,有合作也有竞争,尚未形成动态平衡。Nokia仍然占有最大的手机市场份额,却在智能手机输给了AppleAndriod

在这个领域,Apple执着的封闭式系统取得了意想不到的成功。Google的加入使本已混乱的市场,变得更加难以琢磨。Microsoft屡战屡败依然不离不弃。20101011日,Microsoft发布了Windows Phone7[105]Google Android 2.3即将到来的谣言也在漫天飞舞。

乱哄哄你方唱罢我登场,却是处理器领域之外的故事。

ARM是这个领域最大的收益者。无论是NokiaAppleHTC还是Motorola都在使用ARM处理器。Intel垂涎三尺也无可奈何,陆续发布的Atom系列处理器,无论是Silverthorn(Atom Z5xx)系列,Diamondville(Atom N2xx2XX3XX)Pineview(Atom N4xx, D4xxD5xx)距离手机都很遥远。

Intel近期发布的代号为LincroftAtomZ6xx处理器,却应者聊聊。基于Lincroft内核的Moorestown平台,难显Intel昔日的振臂一呼。尚未有任何一个手机厂商宣布使用这个平台生产手机。

业界似乎仍在等待Intel即将在2011年推出的Medfield平台,这个平台将沿用Atom Z6xx内核,采用32nm工艺,进一步提高性能功耗比[107]Intel很难继续等待,因为Intel的后院再一次燃起了熊熊烈火。

借助ARM处理器,AppleiPad已率先发难。这标志着手机领域和PC领域融合的开始。融合的进度虽然缓慢,参与者也已先知先觉。Intel选择在手机领域进行反击,经过一系列的合作与收购,进军手机领域一支的先头部队已悄然组建。

Intel的一系列动作,不足以改变手机领域的格局,却足以使其震惊。这个领域的既得利益者很难接收这位巨人。Intel的能力不容置疑,胃口却大了些。过小的手机上放满了运营商和生产厂商的Logo,已经无法再嵌入一个Intel inside

Intel不在乎这些阻力。在短时间内,Atom处理器无法在性能功耗比上压倒Cortex处理器,对于Intel这是一个长期的任务。而这些阻力并不值得担忧。

性能功耗比这个词汇是ARM发明的,主要目的是为了掩盖ARM处理器当时过于低下的性能。这个词汇本身无法阻碍Intel进军手机领域的步伐。Intel清楚只要Atom处理器能够在功耗上满足手机领域的需求,就可以利用自身强大的Ecosystem逐步切入手机领域。加以时日,增强对手机领域的理解,Intel可以在手机领域向ARM阵营发起强有力的挑战。

Cortex系列处理器的横空出世打乱了Intel的部署。Atom处理器在最不应该失败,也最失败不起的性能上输给了ARM。从Cortex A9起,ARM处理器实现了对Atom内核性能上的反超[i]Cortex A15完成了对Atom内核的全面超越。目前尚未有基于Cortex A15内核的处理器,但这只是时间问题。

Intel的时间所剩无几。如果在Moorestown/Medfield平台上使用的处理器内核性能没有明显超过Cortex系列处理器。Intel近期的所有努力将付之东流。在今后两到三年左右的时间,Intel必须发布一个全新的Atom内核[ii],在性能上明显高于Cortex A15内核。Intel需要本质地提高Atom内核的性能,需要一个激进的变革,而不是渐变。Intel可以暂时依靠并不完美的Atom内核在商务上取得成功,但是商业与技术并不会长久背离。

Cortex系列处理器的出现敲响了Intel的警钟。第一颗Cortex内核于20041019日发布[108],这个内核并不是Cortex-A8,而是Cortex-M3Cortex A8内核在2005104日发布[109]。随后ARM2006515日发布了Cortex-R4内核[110]。至此Cortex内核完成了在嵌入式领域的布局。Cortex MRA内核使用ARMv7的指令集,应用于嵌入式的不同领域。M内核[iii]应用在一些对成本较为敏感的微控制器领域,R内核主要应用在实时控制领域,而A内核用于手机与PC领域。

ARM11之后,ARM处理器内核不再以ARM作为前缀[iv]ARM公司取消这个前缀完全出于迷信的考虑[v]。在ARM的历史上,所有以偶数结尾的ARM内核,包括ARM26810,都没有获得成功。ARM不想使用12,而13似乎更加糟糕,于是换了一个新的名字。ARM这个单词并没有在Cortex系列中消失,Cortex的三大系列M-R-A,合起来就是ARM

更替前缀的内核,已焕然一新。Cortex A8内核的DMIPS指标达到了2.0DMIPS/MHz,这与ARM11相比取得了巨大的进步。Cortex A8处理器在大幅提高性能的同时依然保持了低功耗优势。一个含有32KB的指令和数据Cache256KBL2CacheCortex A8,在使用600MHz的时钟频率时,总功耗仅为300mW[vi]

Cortex A8内核不再使用简单的Enhanced DSP指令,而是引入了NEON部件。NEON的功能与IntelSSE类似,用于支持SIMD类指令。Cortex A8是第一颗引入Superscaler技术的ARM处理器。在每个时钟内,Cortex A8可以并行发射两条指令[111]。出于降低功耗的考虑,Cortex A8内核使用了静态调度的流水线和顺序执行方式。

为了进一步提高时钟频率,Cortex A8内核使用了13级的整型指令流水线和10NEON指令流水线,流水线级数高于ARM11内核的8级。流水线级数的增加有利于处理器主频的提高,却对指令分支预测的成功率提出了更高的要求。

Cortex A8ARM11的基础上,将BTB使用的Entry数目从64增加到512,同时设置了GHB(Global History Buffer)RS(Return Stack)部件。这些措施极大提高了指令分支预测的成功率,从ARM1188%提高到Cortex A895%[112]

Cortex A8Cache的设计中,首次引入了Way-Prediction部件。在现代处理器中,Cache由多个Way组成,如8-way16-way或者32-wayWay-Prediction部件的主要功能是预测当前Cache访问将使用哪个Way,可以暂时关闭不使用的Cache行,以到达节电的目的。IntelPentium M处理器起也使用了这种Cache访问方式,并一直应用到x86处理器的后续产品中。Atom处理器也可能使用了这种方式。

ARM11相比,Cortex A8内核在Cache Memory系统上,进行了较大的优化。Cortex A8内核访问L1 Cache时只需一个时钟周期,而ARM11需要使用两个。Cortex A8支持L2Cache,大小为128KB~1MBARM11虽然也支持L2 Cache,却几乎没有被SoC厂商使用。Cortex A8可以使用64位或者128位总线连接外部设备,ARM11只能使用64位总线。

Cortex A8使用了Architecture-GatingFunctional-Gating两种技术进一步降低功耗。所谓Architecture-Gating是指,处理器内核执行WFI(Wait for Interrutp)指令之后,将进入idle-loop模式。Cortex A8Functional-Gating技术的本质是使用Clock-Gating技术,分离各个功能部件。当处理器运行运算时,不相关的功能部件,如Cache,指令队列,Write BufferNEON所使用的时钟可以临时切断,以达到节电的目的。Clock-Gating技术的大规模使用使得Cortex A8内核获得了300mw/600MHz的功耗频率比[111]

在前45nm时代,Clock-Gating技术也已经在x86处理器上得到了广泛的使用,Cortex A8之所以获得了高于x86处理器的性能功耗比的重要原因,一是使用了更少的晶体管,二是因为没有如x86那样去挑战处理器运算能力的极限。

Cortex A8之后,ARM加快了处理器内核的更新速度,每3年就会推出一个A系列处理器内核。这个速度远低于IntelTick-Tock。而对于人数不满两千,同时要兼顾Cortex RM系列内核升级的ARM,已经是一个不小的奇迹。

2007103日,Cortex A9正式推出[113]Cortex A9具有两个版本,一个是传统的单内核,另一个是MPCore,最高主频可达2.0GHz,最多支持4个内核。Cortex A9的整型运算的性能在Cortex A8的基础上提高了25%,达到了2.5DMIPS/MHz2.9CM/MHz[43][114],恰好超过Atom处理器的2.4DMIPS/MHz2.8CM/MHz[vii]

Cortex A9采用了更高的成产工艺,整型流水线的级数虽然只有8[viii],时钟频率却高于Cortex A8。在Cortex A9中,ARM引入了高端处理器常用的乱序执行(Out-of-Order)和猜测执行(Speculative Execution)机制,进一步扩大了L2 Cache的容量(128KB~8MB),可使用SnoopingDirectory两种机制实现Cache的一致性。

Cortex A8相同,Cortex A9依然使用MESI模型进行Cache的共享一致性,但是对MESI模型进行了许多优化,支持更多的Cache-to-Cache传送方式,进一步减少了处理器对主存储器的访问[114][115]

这些更新极大地提高了Cortex A9的性能。从Cortex A9开始,ARM处理器正式完成了对Atom内核性能上的超越,Cortex A9在性能上超越的不仅是Atom,还包括同时代用于嵌入式系统的处理器,如PowerPCMIPS处理器[115]ARM依靠性能功耗比的日子已一去不复返。但是Cortex A9距离Intel的主流处理器,NehalemWestmereSandy Bridge处理器依然有不小的差距。

ARM并没有停下脚步,201098日,代号为EagleCortex A15正式发布[116]。对于Intel,狼外婆终于来了。Cortex A15内核并不是Cortex A9的继承者,Cortex A9虽然与Cortex A8的功能较为相近,也不是完全的继承关系。

Intel频繁更新处理器内核的策略并不相同,ARM内核具有更长的生命期。1993年发布的ARM7内核仍然在被大规模使用。Cortex A8A9A15这三颗内仍将在相当长的一段时间里并存,深入到嵌入式应用的各类高端领域。

Cortex A15拥有足够的性能,具备了进军LaptopServer领域的能力。在未来的35年里,Cortex A9Cortex A15组成的ARM处理器阵营将与IntelAtomSandy Bridge处理器展开全方位的较量。

Cortex A15最高主频将达到2.5GHz,支持8个内核,采用Superscaler流水线技术,具有1TB的物理地址空间,支持虚拟化技术,乱序执行,寄存器重命名,并行设置了多个执行单元。在现代高端处理器技术中涉及的技术几乎都可以在这个内核中找到。Cortex A15的性能将在Cortex A9的基础上继续提高50%ARM公司尚未公开Cortex A15的功耗指标,但是可以预计在性能大幅提高的前提下,Cortex A15的功耗也必随之大幅提高。

首先是处理器主频的提高。Cortex A15使用了超长的24级流水线结构[ix],前12级用于指令预取,译码与分发,这部分指令流水是顺序执行的;后3~12级用于指令的执行,在这一阶段,指令可以乱序执行[117][118]

超长的流水线结构利于处理器主频的提高,但是与Cortex A8相比,在使用相同的工艺时Cortex A15的主频仅仅提高了10%[117],以此推测Cortex A15使用的超长流水线,可能是为了降低功耗。

Cortex A15另外40%的性能提高,需要流水线其他部件和Cache Memory系统的协调工作。Cortex A15必须极大增强分支指令的预测命中率。过长的流水线也意味着巨大的流水线中断惩罚。Cortex A15分支预测部件的工作原理与Cortex A8/9基本相同,只是将BTB的条目增加到了2K个,而且采用2-Way组相连结构。

Cortex A15GHBTaken阵列,Not Taken阵列和Seletor阵列[x]组成。Cortex A15对非直接跳转指令进行了一些优化,设置了256EntryBTB阵列,每一个Entry可以存放多个目标地址。除此之外Cortex A15还引入了具有64Entry的,使用全互连结构的MicroBTBCortex A15的这些功能增强进一步提高了转移指令的命中率,但是与Nehalem处理器的分支预测单元相比仍有不小的差距[117]

Cortex A15的流水线与Cortex A8的基本结构较为类似,由FetchDecodeRenameDispatchNeon/VFPInterger IssueLoad/Store Issue等部件组成,只是在Cortex A15中,指令需要更多的时钟节拍才能通过这些部件[117]。例如在Cortex A15中,Fetch单元由5级组成,Decode单元由3级组成[117]

Cortex A15的指令预取总线的宽度为128b,一次可以预取4~8条指令,与Cortex A9相比,提高了一倍。Decode部件一次可以译码3条指令,而Cortex A9一次可以译码2条指令。

Cortex A15引入了Micro-Ops的概念。Micro-Ops指令与x86μops指令表现形式不同,但是基本想法较为类似。在x86处理器中,指令译码单元将复杂的CISC指令转换为等长的μops指令,再进入指令流水线中运行;而在Cortex A15中,指令译码单元将RISC指令进一步细分为Micro-Ops,以充分利用指令流水线中的多个并发执行单元。Cortex A15Decode部件在一个时钟节拍内可以同时译码3条指令,并将这3条指令转化为5Micro-Ops[117]

Cortex A15提高了Interger Issue部件的发射能力,从Cortex A93条提高到4条,同时分离了Cortex A9Load/Store Issue部件,具有独立的LoadStore部件,并开始在流水线使用128位宽的数据总线。

Cortex A15还使用了32EntryLoopBuffer,当处理器执行一段较长的循环指令时,指令流水线将直接从Loop Buffer中获得Micro-Ops,而无需使用FetchDecode部件。此时这两个部件可以暂时关闭,以节约功耗。IntelCore2架构中也使用了相同的机制[119]

从体系结构的角度上看,Cortex A15对于ARM处理器自身是一次飞跃,但是与IntelNehalem/Sandy Bridge处理器相比,仍处于入门阶段。上文所提到的在Cortex A15中出现的技术,对于Nehalem处理器都是微不足道,更不用说是Sandy Bridge处理器。但是Cortex A8/9+Cortex A15依然可以凭借性能功耗比向Atom+Nehalem/Sandy Bridge处理器发起强有力的冲击。

制约x86处理器继续向前发展的主要原因有两个。一是Intel已经处于处理器体系结构的最前沿,每前进一步的代价过于巨大,Cortex A15虽然取得了巨大进步,但是仍处于高端处理器的入门阶段,仍有巨大的潜力。更重要的是,跟随者可以以更小的代价获得最新的技术。另外一个原因就是Intel的向前兼容策略,在某种程度上束缚了Intel前进的步伐。

ARM公司一再强调Cortex系列处理器的性能功耗比的优势,也在不自觉地掩饰ARM处理器相对较为简单的架构。从处理器体系结构本身出发,决定一个处理器功耗的最直接的要素依然是使用的晶体管数目。x86系列处理器功耗较高的主要原因是集成了较多的晶体管。在ARM处理器中使用的低功耗技术没有哪一个是独门绝技,这些技术也出现在x86系列的处理器中,包括Atom处理器。

从低功耗的设计理论上讲,一个处理器的功耗主要由动态功耗和静态功耗两部分组成。而对于CMOS电路,动态功耗主要由开关功耗和短路功耗两部分组成,公式描述如下。

Pdyn = (CL × Ptrans ×Vdd2 × fclock) + (tsc ×Vdd × Ipeak × fclock)[120]

其中CL指电路总负载电容,Ptrans指工作电路所占的比例,Vdd指工作电压,fclock指工作频率。而tscPMOSNMOS同时打开的时间,在多数情况之下tsc的值较小,因此上述公司的后半段几乎可以忽略不计,因此Pdyn ≈ (CL ×Ptrans × Vdd2 ×fclock)

其中CL参数由电路设计的复杂度决定,这也是x86处理器和ARM处理器目前功耗差距的最重要来源。Ptrans参数由处理器设计的电源管理策略决定,这也引出了一个低功耗设计的热点问题,处理器的低功耗设计更应侧重于在不同的场景之下,功耗的使用情况,而不应关注平均值。放之四海而皆准的电源管理最优策略并不存在,没有人能做到又让马儿跑,又让马儿不吃草。

Vdd参数的降低可以有效的降低功耗,近些年Vdd的值在不断下降,从5.0V3.3V2.5V1.2V0.8VVdd的不断下降,Vt[xi]也随之降低,不断降低的Vt最终导致Isub[xii]呈指数上升,反而极大了增加了静态功耗,这个现象在45nm及以下工艺的设计中更为凸现。fclock更似一面双刃剑。频率的提升有利于性能的提高,却也极大提高了功耗。

CLPtrans两个指标上分析,不难发现ARMCL层面上做得更好,更简练的设计决定了ARM处理器的低功耗。在Ptrans层面上分析,x86更胜一筹,x86处理器在ACPI规范中定义了一系列处理器状态,运比ARM处理器定义的状态复杂。x86处理器获得了较低的Ptrans值,但也无法掩盖因为较高的CL而获得的总功耗。

随着处理器制作工艺的不断前进,静态功耗所占的比例在不断地提高,这使得一些可以显著降低动态功耗,却提高了静态功耗的技术不再适用。静态功耗是指在晶体管处于上电状态时,晶体管的漏电流(Leakage)引发的功耗。漏电流主要由ISUBIGATEIGIDLIREV组成。使用45nm工艺时的静态功耗是90nm工艺的6.5倍,使用32nm22nm工艺时,静态功耗所占的比例呈指数上升[120]

这些变化使低功耗的设计从降低动态功耗逐步转移到降低静态功耗上,在实现策略上从Clock Gating逐步转移到Power Gating。在Cortex A8处理器中,ARMClock Gating技术发挥到了极致,而由于缺乏工艺上的领先,在Power Gating领域上落后于Intel。从纯技术的角度上看,无论在降低动态功耗还是静态功耗的领域上看,Intel都是领先的。Intel在工艺上领先的事实,也在一定程度上说明了从门级电路的实现上看,天下半导体厂商的合力尚不足与之抗衡。

Intel却没能实现性能功耗比最优的处理器,这是技术之外的故事。在商业上,Intel一直坚持着向前兼容。多年以来Intel依靠向前兼容,战胜了一个又一个对手。向前兼容需要额外使用更多的晶体管数量,在服务器领域,因为保留向前兼容所浪费的晶体管并不是太大的问题,在手机领域却不容忽视。

Pentium Pro处理器大约使用了30%的晶体管数目处理x86向前兼容,包括Microcode ROM,指令译码和控制逻辑[121],而Pentium Pro处理器一共使用了5.5M个晶体管数目[36]。但是不要认为x86处理器在处理向前兼容时仅仅需要使用1.65M颗晶体管。因为除了进行指令转换(Instruction Transforming)这段逻辑之外,随着L1指令Cache的增加,向前兼容所付出的代价也在等比例上升。由于乱序存储器访问模型的出现,向前兼容需要付出更大的代价。

Atom处理器在实现中使用了In-Order的流水线,并没有采用乱序执行的μops指令流水线,在很大程度上也在回避着因为向前兼容而带来的巨大惩罚[xiii]x86处理器继续背着向前兼容的大山,与针对性能功耗比进行了一轮又一轮优化的Cortex系列之间的竞争并不公平。

Intel更不公平的是其长期坚持的通用平台战略。因为Intel的努力,PC处理器更加标准,更加通用,更加廉价。通用平台使得Intel获得了巨大的成功,却在一定程度上阻碍了Intel进军嵌入式领域。

嵌入式领域是一个备受Intel通用平台战略挤压的系统,通用处理器每进一步,嵌入式处理器便后退一步。嵌入式处理器在不断后退,不断细分的过程中,顽强地活了下来,根深蒂固地坚守了自己的阵地,回首却发现一直在前进的通用处理器x86,生活在最大孤岛中,被其包围得密不透风。这一次x86处理器需要从孤岛中游回彼岸,却无法使用ARM阵营的细分市场策略。

IntelARM两个公司本身并不具备可比性。自1992年起,Intel一直在半导体厂商中排名第一,ARM公司从来没有进入过半导体厂商的排名,甚至可以说ARM并不是一个半导体厂商,ARM没有生产过一颗商用处理器。Intel一年的销售额是几十个BillionARM仅为几百个MillionIntel78万名员工,ARM仅有1700余名员工。

单独的ARM没有办法与Intel比较,但是ARM阵营所蕴含的能量却足以与Intelx86阵营抗衡。在2009年排名TOP20的半导体厂商,除了IntelAMDElpida之外,全部LicenseARM内核。不仅如此ARM阵营还包括AppleMicrosoftGoogle。诸多形态各异厂商的参与使ARM阵营更加立体化。

x86处理器阵营中,AMD近期很少有声音[xiv]VIA在持续的亏损,真正努力的只剩下Intel。在IntelEcosystem中,除了Intel和提供基础BOIS的厂商外,其他的OEM/ODM并没有在处理器体系结构方面给予Intel必要的帮助。有些OEM厂商更像是依托在x86处理器之上的寄生虫。

严酷的外部环境使得Intel需要使用统一平台战略进入嵌入式市场,虽然这个策略与嵌入式系统要求的进一步定制,进一步细分的原则背道而驰。Intel依然不能在统一平台上有所动摇,目前以及在很远的将来,x86处理器阵营都无法向ARM处理器那样深入到嵌入式的每一个领域。多数嵌入式领域所提供的空间也无法容纳Intel这样的庞然大物。

Intel的目标非常明晰,就是手机处理器。在手机领域ARM处理器处于垄断地位,在技术上Intel并非没有任何机会。与ARM处理器相比,IntelAtom处理器性能功耗比较为落后,但这并不是Intel在技术上的最大劣势。从整型运算的角度上看,Cortex A9略高与Atom处理器,而Atom处理器在Cache memory的表现更优。内核上的相比,两者各有千秋。

最令Intel尴尬的是,x86处理器并没有一个与AMBA总线类似的SoC平台总线,这是Intel进军嵌入式领域一个不小的障碍。Intel或者定义一条全新的SoC平台总线,或者集成AMBA总线。从加速推出产品的角度上,直接使用AMBA总线无疑是一条捷径。而世上没有捷径,从更长远的时间上看,借用AMBA总线,会使ARM阵营更加强大。最初的所谓捷径不过是为他人做的嫁衣裳。

Intel很难有其他选择。在x86处理器系统中广泛应用的PCIe总线,不能使用在SoC内部。这条总线的设计目标是作为局部总线,连接片外的外部设备。PCIe总线提供巨大的带宽的同时,带来了较大的传送延时。更为重要的是与基于AMBA总线的外部设备相比,基于PCIe总线的外部设计需要使用更多的资源,也带来了更大的功耗。PCIe总线的低功耗设备,与AMBA总线的低功耗设备,在性能功耗比上没有可比性。

AMBA总线阵营的强大超乎多数人的想象。AMBA总线是一个在SoC领域使用的事实上的标准。AMBA总线V1.01995年正式发布[122],用于SoC内部各个模块间的互联,支持多个主设备,支持芯片级别测试。在AMBA V1.0中定义了两条总线,ASB(Advanced System Bus)APB(Advanced Peripheral Bus)V1.0还定义了一个连接存储器的外部接口,这个外部接口可以用做测试。

ASB总线是一个快速总线接口,使用独立的地址数据总线,支持流水传送方式,支持多个主设备与从设备,采用集中译码和仲裁方式。ASB总线的主要作用是连接CPUDMA引擎,内部存储器和一些快速外部设备。APB总线连接一些慢速设备,APBASBSecondary Bus,两者的关系如4所示。

 

ARM与x86之4--EAGLE <wbr>is <wbr>Coming!

4ASBAPB的组成结构[123]

 

从今天的技术上看,AMBA V1.0总线十分简陋,设计这样的总线标准甚至可以作为几个研究生的毕业论文。AMBA总线的最大优点是开放的架构,和因此带来的免费[123]。开放的总线标准使AMBA总线迅速普及,而且更易吸收整个半导体界的成果。

1999AMBA总线更新到V2.0[124],增加了一个新的总线AHB(Advanced High-Performance Bus)AHB总线取代了ASB在系统中的位置,使ASB进一步下移,增加了Split传送方式进一步提高了存储器读的效率,总线宽度最高可达128位。

2001年,ARM发布了AMBA V3.0总线规范,引入ATB(Advacned Trace Bus)AXI(Advanced eXtensible Interface)总线。AXI总线的引入,使AMBA总线迈向新的台阶,性能已经可以与IBMCoreConnect抗衡[126]

AXI是一条现代总线。AXI总线分离了一个总线周期的地址阶段和数据阶段,更便于实现在现代总线中常用的PipeliningSplit技术。AXI总线进一步分离了总线通路,将AHB的单通路分解为Read DataReadAddressWrite DataWrite AddressWrite Response5个独立通路,进一步加速了对存储器的读写访问。

AXI总线接口逻辑设计较为复杂,与AHB总线相比多使用50%的资源。AXI的一次总线周期至少需要传送64字节的数据,而AHB总线是16字节,这也导致AXI总线的传送延时高于AHB总线[125]AXI总线的目标不是用于替换AHB总线,在一个SoC中,AXI总线和AHB依然并存,只是AXI总线更接近ARM内核,AHB总线更贴近外部设备。

AMBA总线阵营规范了嵌入式领域的平台总线,日益壮大。201038日,ARM正式推出AMBA V4.0总线,引入了QoS机制,进一步增强了多层结构,将AXI总线细分为AXI4AXI-LiteAXI-Stream[127]

这一切并不是AMBA V4.0最重要的更新。如同Nehalem内核最重要的变化并不是流水线,而是QPI互联结构[xv],在AMBA4总线中最值得注意的是片间互联总线CoreLink CCI[xvi](CacheCohenrent Interconnect)架构。

CoreLink CCI架构使得多个SMP系统之间实现Cache共享一致性成为可能,Cortex A15也借此超越了用于嵌入式领域的PowerPC和其他多核MIPS[xvii]。在整个处理器总线阵营中只有IBMCoreConnectIntelQPI可以与之抗衡。CoreLink的横空出世,使Cortex A15具备了和Intel的高端处理器NehalemSandy Bridge抗衡的能力。在服务器领域,Cortex A15内核与Nehalem内核间的较量就是CoreLinkQPI之间的角逐。

AMBA总线标准提供的AXIAHBASBAPBATB总线,不仅使用在ARM处理器系统中,MIPSPowerPC处理器也开始使用AMBA总线。TIFreescaleDSP也在使用AMBA总线。AMBA总线已经无孔不入,在整个嵌入式领域,没有可以向其挑战的对手[xviii]

面对ARM内核,Intel并不畏惧,面对AMBA总线阵营,Intel只剩下无奈。可以预计在相当长的一段时间里,Intel无法推出一条能和AMBA总线抗衡的SoC平台总线。Intel只能暂时向AMBA总线示弱。

Intel自身具有强大的图形处理芯片,却在Moorestown平台中不得已使用了PowerVR SGX 535[128][129]图形处理芯片。PowerVR SGX 系列也是Apple A4Samsung HummingbirdTIOMAP4处理器使用的图形处理芯片。

基于低功耗的考虑,Intel依然需要依赖ARM阵营提供的外部设备。如果最终的结局是Atom处理器依赖AMBA外设战胜了Cortex内核,Atom处理器仍然会被ARM阵营重新绑架。对于多数厂商,通过简单的系统集成,快速推出市场需要的产品是第一位的,而这些厂商却无法获得更高利润。

ARM的廉价License策略实际上已经清楚地向Intel转告了一个事实,单纯依靠处理器内核无法在嵌入式领域取得暴利。无法获取暴利的领域是不会有持续的资金注入。Intel并不会例外。也许Intel一直等待Medfield平台的成熟。但是不要给予这个平台太多期望。Medfield,这颗Intel有史以来第一个基于Atom处理器单芯片解决方案[130],如果仅是将Moorestown平台的Lincroft处理器和Langwell和二为一,前景并不光明。更为重要的是Medfield平台提供的外设,很难与ARM平台的外设阵营抗衡。

在外部设备领域,ARM不是一个人在战斗,而是利用AMBA总线控制了整个半导体界。整个世界已有的用于手机的处理器平台都在使用基于AMBA总线的各类外设,而没有一个使用基于PCI/PCIe总线的外部设备。

IntelMedfield平台可能的优势依然是在处理器内核上战胜Cortex A9A15。而这一切对于Atom Z6xx内核来说几乎是一件不可能完成的任务。可以预见,Medfield平台依然与基于Cortex A9内核的手机平台旗鼓相当。而对于后入者,仅靠旗鼓相当,很难获取太多的市场份额。

在抛开技术之后,Intel所面临的处境愈加艰难。Wintel帝国统治IT世界已有多年,芸芸众生对Wintel帝国产生了严重的审美疲劳。Intel需要进入的手机领域,与其说被ARM把持,不如说被剩余的所有半导体厂商把持。Intel动了ARM的奶酪也意味着动了全天下半导体厂商的奶酪。Intel的进军手机领域更像是一场大的赌博,没有人知道结局。可以肯定的是,Intel在放弃了XScale架构之后,不会轻易地放弃Atom架构。

也许Intel需要急迫解决的并不仅是技术问题。与许多巨型公司相似,最大障碍不在颛臾而在萧墙之内。与不到2000员工的ARM相比,来自Intel内部的故事复杂得多,也深刻得多。多年以来,IntelPC领域取得巨大成功的同时,也滋生了巨大的执拗。x86处理器之前取得的辉煌,使得改变成为Intel一个尽力回避的观念。

Medfield平台的成功,对于Intel可能不是一件好事。也许Intel需要的是一场大的失败,因为使用失败统一内部意见往往比胜利容易得多。2011年,Intel将发布Medfield平台。ARM阵营也许依然会战胜Medfield平台。

这一切仅是决战的开始。永远不要低估Intel这位巨人的心。



[i]有关Atom处理器与Cortex A9的性能对比见ATOM的前生今世

[ii]传统的Atom处理器伴随着Cortex A15的发布,已经死去。

[iii]M内核实际上不是ARM内核,而是16位的Thumb 2内核。

[iv]对我而言这是一件非常快乐的事情。从这时起,我再也不用写ARM公司的ARM7内核这样绕口的文字了。

[v]没有找到ARM的官方说法,所以没有列出参考文献。这个说法很可能是我在ARM公司工作的一个朋友的谣言。

[vi]该功耗指标基于65nm LP工艺。

[vii]我更相信这是Cortex A9处理器的预谋。Cortex A9可以超过的更多,不过ARM选择将更多的风头留给Cortex A15

[viii]8级流水做到了2.0GHz,又是乱序,又是猜测访问,又是多发射,实在是佩服。

[ix]使用了这么长的流水线,却不是为了提高主频,想必是基于降低功耗的考虑。应该有些独特的设计,目前尚无找到详细描述。Cortex A15的这种做法有别于x86

[x]在多数处理器中,GHB具有4个状态TakenNotTakenWeekly TakenWeekly Not TakenCortex A15将后两种状态合并。采用这种方法可以进一步减少晶体管数目,但其效果仍需观察,目前尚未找到采用这种方法的最终量化分析结果。

[xi]Vt指电压的门限值,用来识别01逻辑。

[xii]Isub指亚域值漏电流,即从Drain经过弱反形层流向Source的电流。

[xiii]随着纳米技术的不断向前发展,因为向前兼容所浪费的晶体管数目在整个Die中所占的比例在不断缩小。但是向前兼容却为处理器的设计造成了巨大的困难。因为照顾向前兼容,采用了非最优的设计而浪费的晶体管数目很难统计。

[xiv]AMD近期发出的声音是加入IntelNokia主导的Meego阵营。AMD这种态度,在很大程度上是在向世界承认弱者的地位,和不争第一的雄心壮志。只希望在未来的几年,当IntelARM激战正酣时,AMD不要再去抄Intel的后路。

[xv]笔者之所以认为Nehalem内核是Intel的第三个里程碑,是因为QPI互联机制,而不是Nehalem内核本身。如果单指Nehalem内核,AMD完全可以开发出与此性能相当的内核,而QPI的基于Directory机制的Cache共享一致性机制,将使AMD放弃追赶。多年以来,IBMHP高端服务器的附加值都是在如何进一步增强Cache一致性模型。Nehalem在芯片内部解决了这个问题之后,HPIBM服务器和台湾OEM厂商生产的基于Nehalem内核的服务器将质的差别。

QPI是一个较为复杂的机制,Intel员工可以参考Nehalem Microarchitecture手册。Robert A. Maddox, Gurbir SinghRobert J. Safranek书写的Weaving High Performance MultiprocessorFabric是唯一一本介绍QPI的书籍。目前与QPI相关的论文并不多。

[xvi]感谢弯曲评论的陈先生提出的宝贵意见,Tektalk上有一篇关于CoreLink的简介,比我提到的这些完整得多,请参阅http://www.tektalk.org/2010/11/28/arm的薄积与薄发-浅谈arminterconnect的战略

[xvii]FreescaleQorIQ系统处理器引入了CoreNet架构,而这个架构并不能实现多个SMP系统的Cache共享一致性。RMICaviumMIPS多核也没有完美地解决这些问题。如果用一条总线基于Snooping技术,连接2~4个内核还可以,8个内核十分困难。

Cache的共享一致性是一个异常沉重的话题,其难度超越了绝大多数处理器爱好者的想象,可以负责任地讲,在整个高端处理器领域中,最困难,最难以有突破的重中之重,依然是Cache Memory系统。

[xviii]从技术的角度上讲,x86处理器内部的系统总线和QPI互联机制依然比AMBA4复杂得多,但是这些机制仅使用在Intelx86处理器中。

原文地址:http://blog.sina.com.cn/s/blog_6472c4cc0100lqr8.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值