服务器的中央处理器( CPU ),在内部结构上是跟台式机的差不多,它们都是由运算器和控制器组成, CPU 的内部结构可分为控制单元,逻辑单元和存储单元三大部分。当然工作原理也是一样。随着两者的需求和发展,台式机和服务器的处理器在技术、性能指标等各方面都存在并存的现象,一个最明显的现象,像 Intel 的奔腾系列产品,一直应用于服务器的低端领域。但不代表着服务器 CPU 与台式机将会完全一样,下面内容会让你对服务器 CPU 有个全方位的了解 ……<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

一、产品篇

上面简单把服务器处理器列了一下表,我们可以很清晰看出,服务器处理器按 CPU 的指令系统来区分,有 CISC CPU RISC CPU 两类,后来出现了一种 64 位的 VLIM 指令系统的 CPU ,这种架构也叫做 “IA-64” 。目前基于这种指令架构的 MPU Intel IA-64 EM64T AMD x86-64 RISC 型的 CPU 是我们比较不熟悉的类型,下面一一介绍;

 
<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
IBM
IBM
的四条处理器产品线 —— POWER 体系结构, PowerPC 系列的处理器, Star 系列(很少用于服务器中),以及 IBM 大型机上所采用的芯片
POWER
Power Optimization With Enhanced RISC 的缩写,是 IBM 的很多服务器、工作站和超级计算机的主要处理器。 POWER 芯片起源于 801 CPU ,是第二代 RISC 处理器。 POWER 芯片在 1990 年被 RS RISC System/6000 UNIX 工作站(现在称为 eServer pSeries )采用, POWER 的产品有 POWER1 POWER2 POWER3 POWER4 ,现在最高端的是 POWER5 POWER5 处理器是目前单个芯片中性能最好的芯片。 POWER6 计划 2006 年发布。
PowerPC
Apple IBM 和摩托罗拉( Motorola )联盟(也称为 AIM 联盟)的产物,它基于 POWER 体系结构,但是与 POWER 又有很多的不同。例如, PowerPC 是开放的,它既支持高端的内存模型,也支持低端的内存模型,而 POWER 芯片是高端的。最初的 PowerPC 设计也着重于浮点性能和多处理能力的研究。当然,它也包含了大部分 POWER 指令。很多应用程序都能在 PowerPC 上正常工作,这可能需要重新编译以进行一些转换。从 2000 年开始,摩托罗拉和 IBM PowerPC 芯片都开始遵循 Book E 规范,这样可以提供一些增强特性,从而使得 PowerPC 对嵌入式处理器应用(例如网络和存储设备,以及消费者设备)更具有吸引力。 PowerPC 体系结构的最大一个优点是它是开放的:它定义了一个指令集( ISA ),并且允许任何人来设计和制造与 PowerPC 兼容的处理器;为了支持 PowerPC 而开发的软件模块的源代码都可以自由使用。最后, PowerPC 核心的精简为其他部件预留了很大的空间,从新添加缓存到协处理都是如此,这样可以实现任意的设计复杂度。 IBM 4 条服务器产品线中有两条与 Apple 计算机的桌面和服务器产品线同样基于 PowerPC 体系结构,分别是 Nintendo GameCube IBM 蓝色基因( Blue Gene 超级计算机。现在,三种主要的 PowerPC 系列是嵌入式 PowerPC 400 系列以及独立的 PowerPC 700 PowerPC 900 系列。而 PowerPC 600 系列,是第一个 PowerPC 芯片。它是 POWER PowerPC 体系结构之间的桥梁。现在的 PowerPC970 ,采用 0.13 微米 SOI 工艺制造,其内只有一颗 CPU 核心,带有 512K 芯片内 L2 cache


HP

HP
(惠普)公司自已开发、研制的适用于服务器的 RISC 芯片 ——PA-RISC ,于 1986 年问世。目前, HP 主要开发 64 位超标量处理器 PA-8000 系列。第一款芯片的型号为 PA-8000 ,主频为 180MHz ,后来陆续推出 PA-8200 PA-8500 PA-8600 PA-8700 PA-8800 型号。还有一个就是 HP 私生子 ”Alpha 。( Alpha 处理器最早由 DEC 公司设计制造,在 Compaq 公司收购 DEC 之后, Alpha 处理器继续得到发展,后来又被惠普公司收购)
HP
2002 年开始就公布了其两大 RISC 处理器 ——PA-RISC Alpha 的发展计划,其中 PA-RISC Alpha 处理器至少要发展到 2006 年,对基于其上的服务器的服务支持将至少持续到 2011 年。 2006 年, HP 将会推出 PA-8900 。而对于 Alpha 的发展,惠普公司于已经于 2004 年八月份发布了其面向 AlphaServer Unix 服务器的最后一款处理器产品 ——EV7z

SUN
1987
年, SUN TI 公司合作开发了 RISC 微处理器 ——SPARC Sun 公司以其性能优秀的工作站闻名,这些工作站的心脏全都是采用 Sun 公司自己研发的 Sparc 芯片。 SPARC 微处理器最突出的特点就是它的可扩展性,这是业界出现的第一款有可扩展×××的微处理。 SPARC 的推出为 SUN 赢得了高端微处理器市场的领先地位。

1999
6 月, UltraSPARC III 首次亮相。它采用先进的 0.18 微米工艺制造,全部采用 64 位结构和 VIS 指令集,时钟频率从 600MHz 起,可用于高达 1000 个处理器协同工作的系统上。 UltraSPARC III Solaris 操作系统的应用实现了百分之百的二进制兼容,完全支持客户的软件投资,得到众多的独立软件供应商的支持。

根据 Sun 公司未来的发展规划,在 64 UltraSparc 处理器方面,主要有 3 个系列,首先是可扩展式 s 系列,主要用于高性能、易扩展的多处理器系统。目前 UltraSparc s 的频率已经达到 750GHz 。将推出 UltraSparc s UltraSparc s 等型号。其中 UltraSparc s 的频率为 1GHz UltraSparc s 则为 1.5GHz 。其次是集成式 i 系列,它将多种系统功能集成在一个处理器上,为单处理器系统提供了更高的效益。已经推出的 UltraSparc i 的频率达到 700GHz ,未来的 UltraSparc i 的频率将达到 1GHz 。最后是嵌入式 e 系列,为用户提供理想的性能价格比,嵌入式应用包括瘦客户机、电缆调制解调器和网络接口等。 Sun 公司还将推出主频 300 400 500MHz 等版本的处理器

SGI
MIPS
技术公司是一家设计制造高性能、高档次及嵌入式 32 位和 64 位处理器的厂商,在 RISC 处理器方面占有重要地位。 1984 年, MIPS 计算机公司成立。 1992 年, SGI 收购了 MIPS 计算机公司。 1998 年, MIPS 脱离 SGI ,成为 MIPS 技术公司。
MIPS
公司设计 RISC 处理器始于二十世纪八十年代初, 1986 年推出 R2000 处理器, 1988 年推 R3000 处理器, 1991 年推出第一款 64 位商用微处器 R4000 。之后又陆续推出 R8000 (于 1994 年)、 R10000 (于 1996 年)和 R12000 (于 1997 年)等型号。
随后, MIPS 公司的战略发生变化,把重点放在嵌入式系统。 1999 年, MIPS 公司发布 MIPS32 MIPS64 架构标准,为未来 MIPS 处理器的开发奠定了基础。新的架构集成了所有原来 NIPS 指令集,并且增加了许多更强大的功能。 MIPS 公司陆续开发了高性能、低功耗的 32 位处理器内核( core MIPS324Kc 与高性能 64 位处理器内核 MIPS64 5Kc 2000 年, MIPS 公司发布了针对 MIPS32 4Kc 的版本以及 64 MIPS 64 20Kc 处理器内核。
MIPS
技术公司是一家设计制造高性能、高档次及嵌入式 32 位和 64 位处理器的厂商。 1986 年推出 R2000 处理器, 1988 年推出 R3000 处理器, 1991 年推出第一款 64 位商用微处理器 R4000 。之后,又陆续推出 R8000 (于 1994 年)、 R10000 (于 1996 年)和 R12000 (于 1997 年)等型号。 1999 年, MIPS 公司发布 MIPS 32 MIPS 64 架构标准。 2000 年, MIPS 公司发布了针对 MIPS 32 4Kc 的新版本以及未来 64 MIPS 64 20Kc 处理器内核。


二、参数篇
1.
主频
  主频也叫时钟频率,单位是 MHz ,用来表示 CPU 的运算速度。 CPU 的主频=外频 × 倍频系数。很多人认为主频就决定着 CPU 的运行速度,这不仅是个片面的,而且对于服务器来讲,这个认识也出现了偏差。至今,没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系,即使是两大处理器厂家 Intel AMD ,在这点上也存在着很大的争议,我们从 Intel 的产品的发展趋势,可以看出 Intel 很注重加强自身主频的发展。像其他的处理器厂家,有人曾经拿过一快 1G 的全美达来做比较,它的运行效率相当于 2G Intel 处理器。
所以, CPU 的主频与 CPU 实际的运算能力是没有直接关系的,主频表示在 CPU 内数字脉冲信号震荡的速度。在 Intel 的处理器产品中,我们也可以看到这样的例子: 1 GHz Itanium 芯片能够表现得差不多跟 2.66 GHz Xeon/Opteron 一样快,或是 1.5 GHz Itanium 2 大约跟 4 GHz Xeon/Opteron 一样快。 CPU 的运算速度还要看 CPU 的流水线的各方面的性能指标。
  当然,主频和实际的运算速度是有关的,只能说主频仅仅是 CPU 性能表现的一个方面,而不代表 CPU 的整体性能。

2. 外频
  外频是 CPU 的基准频率,单位也是 MHz CPU 的外频决定着整块主板的运行速度。说白了,在台式机中,我们所说的超频,都是超 CPU 的外频(当然一般情况下, CPU 的倍频都是被锁住的)相信这点是很好理解的。但对于服务器 CPU 来讲,超频是绝对不允许的。前面说到 CPU 决定着主板的运行速度,两者是同步运行的,如果把服务器 CPU 超频了,改变了外频,会产生异步运行,(台式机很多主板都支持异步运行)这样会造成整个服务器系统的不稳定。
目前的绝大部分电脑系统中外频也是内存与主板之间的同步运行的速度,在这种方式下,可以理解为 CPU 的外频直接与内存相连通,实现两者间的同步运行状态。外频与前端总线 (FSB) 频率很容易被混为一谈,下面的前端总线介绍我们谈谈两者的区别。

3. 前端总线 (FSB) 频率
  前端总线 (FSB) 频率 ( 即总线频率 ) 是直接影响 CPU 与内存直接数据交换速度。有一条公式可以计算,即数据带宽= ( 总线频率 × 数据带宽 )/8 ,数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。比方,现在的支持 64 位的至强 Nocona ,前端总线是 800MHz ,按照公式,它的数据传输最大带宽是 6.4GB/ 秒。

外频与前端总线 (FSB) 频率的区别:前端总线的速度指的是数据传输的速度,外频是 CPU 与主板之间同步运行的速度。也就是说, 100MHz 外频特指数字脉冲信号在每秒钟震荡一千万次;而 100MHz 前端总线指的是每秒钟 CPU 可接受的数据传输量是 100MHz×64bit÷8Byte/bit=800MB/s

其实现在 “HyperTransport” 构架的出现,让这种实际意义上的前端总线 (FSB) 频率发生了变化。之前我们知道 IA-32 架构必须有三大重要的构件:内存控制器 Hub (MCH) ,I/O 控制器 Hub PCI Hub ,像 Intel 很典型的芯片组 Intel 7501 Intel7505 芯片组,为双至强处理器量身定做的,它们所包含的 MCH CPU 提供了频率为 533MHz 的前端总线,配合 DDR 内存,前端总线带宽可达到 4.3GB/ 秒。但随着处理器性能不断提高同时给系统架构带来了很多问题。而 “HyperTransport” 构架不但解决了问题,而且更有效地提高了总线带宽,比方 AMD Opteron 处理器,灵活的 HyperTransport I/O 总线体系结构让它整合了内存控制器,使处理器不通过系统总线传给芯片组而直接和内存交换数据。这样的话,前端总线 (FSB) 频率在 AMD Opteron 处理器就不知道从何谈起了。

4 CPU 的位和字长
  位:在数字电路和电脑技术中采用二进制,代码只有 “0” “1” ,其中无论是 “0” 或是 “1” CPU 中都是

  字长:电脑技术中对 CPU 在单位时间内 ( 同一时间 ) 能一次处理的二进制数的位数叫字长。所以能处理字长为 8 位数据的 CPU 通常就叫 8 位的 CPU 。同理 32 位的 CPU 就能在单位时间内处理字长为 32 位的二进制数据。 字节和字长的区别:由于常用的英文字符用 8 位二进制就可以表示,所以通常就将 8 位称为一个字节。字长的长度是不固定的,对于不同的 CPU 、字长的长度也不一样。 8 位的 CPU 一次只能处理一个字节,而 32 位的 CPU 一次就能处理 4 个字节,同理字长为 64 位的 CPU 一次可以处理 8 个字节。

5.
倍频系数
  倍频系数是指 CPU 主频与外频之间的相对比例关系。在相同的外频下,倍频越高 CPU 的频率也越高。但实际上,在相同外频的前提下,高倍频的 CPU 本身意义并不大。这是因为 CPU 与系统之间数据传输速度是有限的,一味追求高倍频而得到高主频的 CPU 就会出现明显的 瓶颈 效应 —CPU 从系统中得到数据的极限速度不能够满足 CPU 运算的速度。一般除了工程样版的 Intel CPU 都是锁了倍频的,而 AMD 之前都没有锁。


6.
缓存
  缓存大小也是 CPU 的重要指标之一,而且缓存的结构和大小对 CPU 速度的影响非常大, CPU 内缓存的运行频率极高,一般是和处理器同频运作,工作效率远远大于系统内存和硬盘。实际工作时, CPU 往往需要重复读取同样的数据块,而缓存容量的增大,可以大幅度提升 CPU 内部读取数据的命中率,而不用再到内存或者硬盘上寻找,以此提高系统性能。但是由于 CPU 芯片面积和成本的因素来考虑,缓存都很小。

L1
  Cache( 一级缓存 ) CPU 第一层高速缓存,分为数据缓存和指令缓存。内置的 L1 高速缓存的容量和结构对 CPU 的性能影响较大,不过高速缓冲存储器均由静态 RAM 组成,结构较复杂,在 CPU 管芯面积不能太大的情况下, L1 级高速缓存的容量不可能做得太大。一般服务器 CPU L1 缓存的容量通常在 32—256KB
   L2   Cache( 二级缓存 ) CPU 的第二层高速缓存,分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同,而外部的二级缓存则只有主频的一半。 L2 高速缓存容量也会影响 CPU 的性能,原则是越大越好,现在家庭用 CPU 容量最大的是 512KB ,而服务器和工作站上用 CPU L2 高速缓存更高达 256-1MB ,有的高达 2MB 或者 3MB

L3
  Cache( 三级缓存 ) ,分为两种,早期的是外置,现在的都是内置的。而它的实际作用即是, L3 缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加 L3 缓存在性能方面仍然有显著的提升。比方具有较大 L3 缓存的配置利用物理内存会更有效,故它比较慢的磁盘 I/O 子系统可以处理更多的数据请求。具有较大 L3 缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

其实最早的 L3 缓存被应用在 AMD 发布的 K6-III 处理器上,当时的 L3 缓存受限于制造工艺,并没有被集成进芯片内部,而是集成在主板上。在只能够和系统总线频率同步的 L3 缓存同主内存其实差不了多少。后来使用 L3 缓存的是英特尔为服务器市场所推出的 Itanium 处理器。接着就是 P4EE 和至强 MP Intel 还打算推出一款 9MB L3 缓存的 Itanium2 处理器,和以后 24MB L3 缓存的双核心 Itanium2 处理器。

但基本上 L3 缓存对处理器的性能提高显得不是很重要,比方配备 1MB L3 缓存的 Xeon MP 处理器却仍然不是 Opteron 的对手,由此可见前端总线的增加,要比缓存增加带来更有效的性能提升。

7.CPU 扩展指令集
   CPU 依靠指令来计算和控制系统,每款 CPU 在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是 CPU 的重要指标,指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分,而从具体运用看,如 Intel MMX Multi Media Extended )、 SSE SSE2 Streaming-Single instruction multiple data-Extensions 2 )、 SEE3 AMD 3DNow! 等都是 CPU 的扩展指令集,分别增强了 CPU 的多媒体、图形图象和 Internet 等的处理能力。我们通常会把 CPU 的扩展指令集称为 "CPU 的指令集 " SSE3 指令集也是目前规模最小的指令集,此前 MMX 包含有 57 条命令, SSE 包含有 50 条命令, SSE2 包含有 144 条命令, SSE3 包含有 13 条命令。目前 SSE3 也是最先进的指令集,英特尔 Prescott 处理器 已经支持 SSE3 指令集, AMD 会在未来双核心处理器当中加入对 SSE3 指令集的支持,全美达的处理器也将支持这一指令集。

8.CPU
内核和 I/O 工作电压
  从 586CPU 开始, CPU 的工作电压分为内核电压和 I/O 电压两种,通常 CPU 的核心电压小于等于 I/O 电压。其中内核电压的大小是根据 CPU 的生产工艺而定,一般制作工艺越小,内核工作电压越低; I/O 电压一般都在 1.6~5V 。低电压能解决耗电过大和发热过高的问题。

9.
制造工艺
  制造工艺的微米是指 IC 内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展。密度愈高的 IC 电路设计,意味着在同样大小面积的 IC 中,可以拥有密度更高、功能更复杂的电路设计。现在主要的 180nm 130nm 90nm 。最近官方已经表示有 65nm 的制造工艺了。

10. 指令集
1 CISC 指令集
   CISC 指令集,也称为复杂指令集,英文名是 CISC ,( Complex Instruction Set Computer 的缩写)。在 CISC 微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。其实它是英特尔生产的 x86 系列(也就是 IA-32 架构) CPU 及其兼容 CPU ,如 AMD VIA 的。即使是现在新起的 X86-64 (也被成 AMD64 )都是属于 CISC 的范畴。

要知道什么是指令集还要从当今的 X86 架构的 CPU 说起。 X86 指令集是 Intel 为其第一块 16 CPU(i8086) 专门开发的, IBM1981 年推出的世界第一台 PC 机中的 CPU—i8088(i8086 简化版 ) 使用的也是 X86 指令,同时电脑中为提高浮点数据处理能力而增加了 X87 芯片,以后就将 X86 指令集和 X87 指令集统称为 X86 指令集。
  虽然随着 CPU 技术的不断发展, Intel 陆续研制出更新型的 i80386 i80486 直到过去的 PII 至强、 PIII 至强、 Pentium 3 ,最后到今天的 Pentium 4 系列、至强(不包括至强 Nocona ),但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,所以 Intel 公司所生产的所有 CPU 仍然继续使用 X86 指令集,所以它的 CPU 仍属于 X86 系列。由于 Intel X86 系列及其兼容 CPU (如 AMD Athlon MP 、)都使用 X86 指令集,所以就形成了今天庞大的 X86 系列及兼容 CPU 阵容。 x86CPU 目前主要有 intel 的服务器 CPU AMD 的服务器 CPU 两类。

2 RISC 指令集
   RISC 是英文 “Reduced Instruction Set Computing ” 的缩写,中文意思是 精简指令集 。它是在 CISC 指令系统基础上发展起来的,有人对 CISC 机进行测试表明,各种指令的使用频度相当悬殊,最常使用的是一些比较简单的指令,它们仅占指令总数的 20 %,但在程序中出现的频度却占 80 %。复杂的指令系统必然增加微处理器的复杂性,使处理器的研制时间长,成本高。并且复杂指令需要复杂的操作,必然会降低计算机的速度。基于上述原因, 20 世纪 80 年代 RISC CPU 诞生了,相对于 CISC CPU ,RISC CPU 不仅精简了指令系统,还采用了一种叫做 超标量和超流水线结构 ,大大增加了并行处理能力。 RISC 指令集是高性能 CPU 的发展方向。它与传统的 CISC( 复杂指令集 ) 相对。相比而言, RISC 的指令格式统一,种类比较少,寻址方式也比复杂指令集少。当然处理速度就提高很多了。目前在中高档服务器中普遍采用这一指令系统的 CPU ,特别是高档服务器全都采用 RISC 指令系统的 CPU RISC 指令系统更加适合高档服务器的操作系统 UNIX ,现在 Linux 也属于类似 UNIX 的操作系统。 RISC CPU Intel AMD CPU 在软件和硬件上都不兼容。

目前,在中高档服务器中采用 RISC 指令的 CPU 主要有以下几类: PowerPC 处理器 SPARC 处理器、 PA-RISC 处理器、 MIPS 处理器、 Alpha 处理器。

3 IA-64

EPIC
Explicitly Parallel Instruction Computers ,精确并行指令计算机)是否是 RISC CISC 体系的继承者的争论已经有很多,单以 EPIC 体系来说,它更像 Intel 的处理器迈向 RISC 体系的重要步骤。从理论上说, EPIC 体系设计的 CPU ,在相同的主机配置下,处理 Windows 的应用软件比基于 Unix 下的应用软件要好得多。

Intel
采用 EPIC 技术的服务器 CPU 是安腾 Itanium (开发代号即 Merced )。它是 64 位处理器,也是 IA 64 系列中的第一款。微软也已开发了代号为 Win64 的操作系统,在软件上加以支持。在 Intel 采用了 X86 指令集之后,它又转而寻求更先进的 64-bit 微处理器, Intel 这样做的原因是,它们想摆脱容量巨大的 x86 架构 , 从而引入精力充沛而又功能强大的指令集,于是采用 EPIC 指令集的 IA-64 架构便诞生了。 IA-64 在很多方面来说,都比 x86 有了长足的进步。突破了传统 IA32 架构的许多限制,在数据的处理能力,系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高。

IA-64
微处理器最大的缺陷是它们缺乏与 x86 的兼容,而 Intel 为了 IA-64 处理器能够更好地运行两个朝代的软件,它在 IA-64 处理器上( Itanium Itanium2 ……) 引入了 x86-to-IA-64 的×××,这样就能够把 x86 指令翻译为 IA-64 指令。这个×××并不是最有效率的×××,也不是运行 x86 代码的最好途径(最好的途径是 直接在 x86 处理器上运行 x86 代码),因此 Itanium Itanium2 在运行 x86 应用程序时候的性能非常糟糕。这也成为 X86-64 产生的根本原因。

4 X86-64 AMD64 / EM64T

AMD
公司设计,可以在同一时间内处理 64 位的整数运算,并兼容于 X86-32 架构。其中支持 64 位逻辑定址,同时提供转换为 32 位定址选项;但数据操作指令默认为 32 位和 8 位,提供转换成 64 位和 16 位的选项;支持常规用途寄存器,如果是 32 位运算操作,就要将结果扩展成完整的 64 位。这样,指令中有 直接执行 转换执行 的区别,其指令字段是 8 位或 32 位,可以避免字段过长。

x86-64
(也叫 AMD64 )的产生也并非空穴来风, x86 处理器的 32bit 寻址空间限制在 4GB 内存,而 IA-64 的处理器又不能兼容 x86 AMD 充分考虑顾客的需求,加强 x86 指令集的功能,使这套指令集可同时支持 64 位的运算模式,因此 AMD 把它们的结构称之为 x86-64 。在技术上 AMD x86-64 架构中为了进行 64 位运算, AMD 为其引入了新增了 R8-R15 通用寄存器作为原有 X86 处理器寄存器的扩充,但在而在 32 位环境下并不完全使用到这些寄存器。原来的寄存器诸如 EAX EBX 也由 32 位扩张至 64 位。在 SSE 单元中新加入了 8 个新寄存器以提供对 SSE2 的支持。寄存器数量的增加将带来性能的提升。与此同时,为了同时支持 32 64 位代码及寄存器, x86-64 架构允许处理器工作在以下两种模式: Long Mode( 长模式 ) Legacy Mode( 遗传模式 ) Long 模式又分为两种子模式 (64bit 模式和 Compatibility mode 兼容模式 ) 。该标准已经被引进在 AMD 服务器处理器中的 Opteron 处理器。

而今年也推出了支持 64 位的 EM64T 技术,再还没被正式命为 EM64T 之前是 IA32E ,这是英特尔 64 位扩展技术的名字 , 用来区别 X86 指令集。 Intel EM64T 支持 64 sub-mode ,和 AMD X86-64 技术类似,采用 64 位的线性平面寻址,加入 8 个新的通用寄存器( GPRs ),还增加 8 个寄存器支持 SSE 指令。与 AMD 相类似, Intel 64 位技术将兼容 IA32 IA32E ,只有在运行 64 位操作系统下的时候,才将会采用 IA32E IA32E 将由 2 sub-mode 组成: 64 sub-mode 32 sub-mode ,同 AMD64 一样是向下兼容的。 Intel EM64T 将完全兼容 AMD X86-64 技术。现在 Nocona 处理器已经加入了一些 64 位技术, Intel Pentium 4E 处理器也支持 64 位技术。

应该说,这两者都是兼容 x86 指令集的 64 位微处理器架构,但 EM64T AMD64 还是有一些不一样的地方, AMD64 处理器中的 NX 位在 Intel 的处理器中将没有提供。

11. 超流水线与超标量
  在解释超流水线与超标量前,先了解流水线 (pipeline) 。流水线是 Intel 首次在 486 芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在 CPU 中由 5—6 个不同功能的电路单元组成一条指令处理流水线,然后将一条 X86 指令分成 5—6 步后再由这些电路单元分别执行,这样就能实现在一个 CPU 时钟周期完成一条指令,因此提高 CPU 的运算速度。经典奔腾每条整数流水线都分为四级流水,即指令预取、译码、执行、写回结果,浮点流水又分为八级流水。

超标量是通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。而超流水线是通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。例如 Pentium 4 的流水线就长达 20 级。将流水线设计的步 ( ) 越长,其完成一条指令的速度越快,因此才能适应工作主频更高的 CPU 。但是流水线过长也带来了一定副作用,很可能会出现主频较高的 CPU 实际运算速度较低的现象, Intel 的奔腾 4 就出现了这种情况,虽然它的主频可以高达 1.4G 以上,但其运算性能却远远比不上 AMD 1.2G 的速龙甚至奔腾 III
12.
封装形式
   CPU 封装是采用特定的材料将 CPU 芯片或 CPU 模块固化在其中以防损坏的保护措施,一般必须在封装后 CPU 才能交付用户使用。 CPU 的封装方式取决于 CPU 安装形式和器件集成设计,从大的分类来看通常采用 Socket 插座进行安装的 CPU 使用 PGA( 栅格阵列 ) 方式封装,而采用 Slot x 槽安装的 CPU 则全部采用 SEC( 单边接插盒 ) 的形式封装。现在还有 PLGA(Plastic Land Grid Array) OLGA(Organic Land Grid Array) 等封装技术。由于市场竞争日益激烈,目前 CPU 封装技术的发展方向以节约成本为主。

三、技术篇

1
、多线程

同时多线程 Simultaneous multithreading ,简称 SMT SMT 可通过复制处理器上的结构状态,让同一个处理器上的多个线程同步执行并共享处理器的执行资源,可最大限度地实现宽发射、乱序的超标量处理,提高处理器运算部件的利用率,缓和由于数据相关或 Cache 未命中带来的访问内存延时。当没有多个线程可用时, SMT 处理器几乎和传统的宽发射超标量处理器一样。 SMT 最具吸引力的是只需小规模改变处理器核心的设计,几乎不用增加额外的成本就可以显著地提升效能。多线程技术则可以为高速的运算核心准备更多的待处理数据,减少运算核心的闲置时间。这对于桌面低端系统来说无疑十分具有吸引力。 Intel 3.06GHz Pentium 4 开始,所有处理器都将支持 SMT 技术。

2
、多核心

多核心,也指单芯片多处理器( Chip multiprocessors ,简称 CMP )。 CMP 是由美国斯坦福大学提出的,其思想是将大规模并行处理器中的 SMP (对称多处理器)集成到同一芯片内,各个处理器并行执行不同的进程。与 CMP 比较, SMT 处理器结构的灵活性比较突出。但是,当半导体工艺进入 0.18 微米以后,线延时已经超过了门延迟,要求微处理器的设计通过划分许多规模更小、局部性更好的基本单元结构来进行。相比之下,由于 CMP 结构已经被划分成多个处理器核来设计,每个核都比较简单,有利于优化设计,因此更有发展前途。目前, IBM Power 4 芯片和 Sun MAJC5200 芯片都采用了 CMP 结构。多核处理器可以在处理器内部共享缓存,提高缓存利用率,同时简化多处理器系统设计的复杂度。

2005
年下半年, Intel AMD 的新型处理器也将融入 CMP 结构。新安腾处理器开发代码为 Montecito ,采用双核心设计,拥有最少 18MB 片内缓存,采取 90nm 工艺制造,它的设计绝对称得上是对当今芯片业的挑战。它的每个单独的核心都拥有独立的 L1 L2 L3 cache ,包含大约 10 亿支晶体管。

3
SMP

SMP
Symmetric Multi-Processing ),对称多处理结构的简称,是指在一个计算机上汇集了一组处理器 ( CPU), CPU 之间共享内存子系统以及总线结构。在这种技术的支持下,一个服务器系统可以同时运行多个处理器,并共享内存和其他的主机资源。像双至强,也就是我们所说的二路,这是在对称处理器系统中最常见的一种(至强 MP 可以支持到四路, AMD Opteron 可以支持 1-8 路)。也有少数是 16 路的。但是一般来讲, SMP 结构的机器可扩展性较差,很难做到 100 个以上多处理器,常规的一般是 8 个到 16 个,不过这对于多数的用户来说已经够用了。在高性能服务器和工作站级主板架构中最为常见,像 UNIX 服务器可支持最多 256 CPU 的系统。

构建一套 SMP 系统的必要条件是:支持 SMP 的硬件包括主板和 CPU ;支持 SMP 的系统平台,再就是支持 SMP 的应用软件。

为了能够使得 SMP 系统发挥高效的性能,操作系统必须支持 SMP 系统,如 WINNT LINUX 、以及 UNIX 等等 32 位操作系统。即能够进行多任务和多线程处理。多任务是指操作系统能够在同一时间让不同的 CPU 完成不同的任务;多线程是指操作系统能够使得不同的 CPU 并行的完成同一个任务。

要组建 SMP 系统,对所选的 CPU 有很高的要求,首先、 CPU 内部必须内置 APIC Advanced Programmable Interrupt Controllers )单元。 Intel 多处理规范的核心就是高级可编程中断控制器( Advanced Programmable Interrupt Controllers--APICs )的使用;再次,相同的产品型号,同样类型的 CPU 核心,完全相同的运行频率;最后,尽可能保持相同的产品序列编号,因为两个生产批次的 CPU 作为双处理器运行的时候,有可能会发生一颗 CPU 负担过高,而另一颗负担很少的情况,无法发挥最大性能,更糟糕的是可能导致死机。

4 NUMA 技术

NUMA
即非一致访问分布共享存储技术,它是由若干通过高速专用网络连接起来的独立节点构成的系统,各个节点可以是单个的 CPU 或是 SMP 系统。在 NUMA 中, Cache 的一致性有多种解决方案,需要操作系统和特殊软件的支持。图 2 中是 Sequent 公司 NUMA 系统的例子。这里有 3 SMP 模块用高速专用网络联起来,组成一个节点,每个节点可以有 12 CPU 。像 Sequent 的系统最多可以达到 64 CPU 甚至 256 CPU 。显然,这是在 SMP 的基础上,再用 NUMA 的技术加以扩展,是这两种技术的结合。

5
、乱序执行技术

乱序执行( out-of-orderexecution ),是指 CPU 允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后,将能提前执行的指令立即发送给相应电路单元执行,在这期间不按规定顺序执行指令,然后由重新排列单元将各执行单元结果按指令顺序重新排列。采用乱序执行技术的目的是为了使 CPU 内部电路满负荷运转并相应提高了 CPU 的运行程序的速度。分枝技术:( branch )指令进行运算时需要等待结果,一般无条件分枝只需要按指令顺序执行,而条件分枝必须根据处理后的结果,再决定是否按原先顺序进行。

6
CPU 内部的内存控制器

许多应用程序拥有更为复杂的读取模式(几乎是随机地,特别是当 cache hit 不可预测的时候),并且没有有效地利用带宽。典型的这类应用程序就是业务处理软件,即使拥有如乱序执行( out of order execution )这样的 CPU 特性,也会受内存延迟的限制。这样 CPU 必须得等到运算所需数据被除数装载完成才能执行指令(无论这些数据来自 CPU cache 还是主内存系统)。当前低段系统的内存延迟大约是 120 150ns ,而 CPU 速度则达到了 3GHz 以上,一次单独的内存请求可能会浪费 200 300 CPU 循环。即使在缓存命中率( cache hit rate )达到 99 %的情况下, CPU 也可能会花 50 %的时间来等待内存请求的结束- 比如因为内存延迟的缘故。

你可以看到 Opteron 整合的内存控制器,它的延迟,与芯片组支持双通道 DDR 内存控制器的延迟相比来说,是要低很多的。英特尔也按照计划的那样在处理器内部整合内存控制器,这样导致北桥芯片将变得不那么重要。但改变了处理器访问主存的方式,有助于提高带宽、降低内存延时和提升处理器性能。

四、厂商篇

Intel
公司简介

英特尔( Intel )公司自成立 1984 , 就开始着眼重于开发半导体存储等产品,目前已经成为是全球最大的芯片制造商及国际领先的个人电脑网络产品和通信产品的生产商。 经营理念公司坚信,计算机和 Internet 的出现将改变整个世界。英特尔( Intel )公司旨在通过开发这些产品建立更先进的计算机系统,为促进世界各地的计算机业的发展作出最大的贡献。
自一九八五年进入中国市场以来,英特尔公司已在中国设立了十二个办事机构,并在上海兴建了世界一流的制造工厂。为了与中国的计算机行业共同发展,在上海和北京分别成立了英特尔上海软件实验室和英特尔中国研究中心。
  杰出的员工是英特尔成功的关键。英特尔公司以独特的企业文化, " 业绩为本 " 的激励机制及每一位员工都能享受的股票期权计划,创造 " 良好的工作环境 " ,吸引最优秀的人才。我们身为高科技的先驱者,为您提供不可多得的工作机会。把握科技时代的脉搏,亲身体验探索尖端科技领域的乐趣,发掘具有创意的解决方案,在无止境的挑战中开拓人生的崭新境界,尽在英特尔世界。


AMD
公司简介
AMD
是一家业务遍及全球的集成电路供应商,专为电脑、通信及电子消费类市场供应各种芯片产品,其中包括用于通信及网络设备的微处理器、闪存以及基于硅片技术的解决方案等。
AMD
除了在世界各大城市设有办事处之外,还在美国、欧州、日本及亚洲等地设有生产中心。 AMD 创办于 1969 年,总公司设于美国硅谷,有超过 70% 的收入来自国际市场,是一家真正意义上的跨国公司。公司在美国纽约股票交易所上市,代号为 AMD
AMD
开发新产品时,力求产品能够满足客户的需要,不会单纯为创新而创新。 AMD 作出每一个决定时,都会考虑 " 以客户为中心进行创新 " ,并以此作为指导思想,让公司员工清晰知道产品的发展方向,也让公司能够在这个基础上与业务伙伴、客户以及用户建立更密切的合作关系。
AMD
深信公司文化对公司的未来发展非常重要,其重要性甚至不亚于所制造的产品。我们热爱工作,拥有锲而不舍的精神。在这样的高尚情操驱使下,我们一直积极寻找发展的机会,致力开发能适合客户需要的创新技术,并充分把握每一个市场商机,与广大的用户、业务伙伴与客户携手合作,帮助他们获益。 AMD 具有刚毅不屈的精神,致力在世界上竞争最激烈的行业内持续发展,这是 AMD 企业文化的独有特色。

全美达公司简介

全美达公司成立於 1995 , 致力於设计 , 发展和销售以软体为基础的高效率 x86 兼容微处理器。我们的微处理器有效的提供低电力消费、高性能、低成本和体积大小之间的平衡。在 2000 , 我们宣布了第一个 Crusoe™ 处理器系列上市 , 并在 2003 10 月推出了新的 Efficeon 处理器系列。我们的产品为不同的计算的平台在要求节能、低热和 x86 软体兼容性等方面提供了无与伦比的价值。我们也开发先进的电能管理技术 , 为半导体和运算器件设备提供电能漏出的控制和增加电能的效率。
全美达是一家拥有 300 名员工小型规模的公司,员工主要位于加里福利亚也遍布世界各地。这就使得公司更具开创性,能迅速地把产品投向市场。为了适应世界范围内的市场需求,在美国,日本,台湾都有公司的销售和服务部门。

IBM 公司简介

美国国际商业机器公司( International Business Machines Corporation ,简称 IBM )已有 80 多年的历史。它是世界上最大的信息工业跨国公司,有遍布世界的 100 多家分公司,拥有 40 万员工,年营业额超过 1000 亿美元。因为 IBM 员工的上班制服是蓝色的,生产的计算机外壳也是蓝色的,所以美国人一直亲昵地称它为 蓝色巨人 。从汤姆斯 沃森创办 IBM 以来, 蓝色巨人 一直被视为卓越管理和先进技术的典范。多年来,它向市场推出的各种型号计算机称霸于世界。超级计算机 深蓝 DeeperBlue )在与国际象棋世界冠军的世纪大战中最终获胜,使 IBM 更是妇孺皆知。 IBM 的四条处理器产品线 —— POWER 体系结构, PowerPC 系列的处理器, Star 系列,以及 IBM 大型机上所采用的芯片。