【硬件设备】CPU系列之基础知识

中央处理器（CPU）一直以来都被称为计算机的“大脑”！其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。

在计算机体系结构中，CPU 是对计算机的所有硬件资源（如存储器、输入输出单元）进行控制调配、执行通用运算的核心硬件单元。CPU 是计算机的运算和控制核心。计算机系统中所有软件层的操作，最终都将通过指令集映射为CPU的操作。

了解CPU之前我们先了解下指令集，方便后续我们对于CPU架构的理解。本文都是一些基础知识讲解也可以通过目录跳跃阅读。

指令集

一、复杂指令集（CISC)

早期的CPU全部是CISC架构，它的设计目的是要用最少的机器语言指令来完成所需的计算任务。比如对于乘法运算，在CISC架构的CPU上，您可能需要这样一条指令：MUL ADDRA, ADDRB就可以将ADDRA和ADDRB中的数相乘并将结果储存在ADDRA中。将ADDRA, ADDRB中的数据读入寄存器，相乘和将结果写回内存的操作全部依赖于CPU中设计的逻辑来实现。这种架构会增加CPU结构的复杂性和对CPU工艺的要求，但对于编译器的开发十分有利。比如上面的例子，C程序中的a*=b就可以直接编译为一条乘法指令。今天只有Intel及其兼容CPU还在使用CISC架构。

二、精简指令集（RISC）

RISC架构要求软件来指定各个操作步骤。上面的例子如果要在RISC架构上实现，将ADDRA, ADDRB中的数据读入寄存器，相乘和将结果写回内存的操作都必须由软件来实现，比如：MOV A, ADDRA; MOV B, ADDRB; MUL A, B; STR ADDRA, A。这种架构可以降低CPU的复杂性以及允许在同样的工艺水平下生产出功能更强大的CPU，但对于编译器的设计有更高的要求。

三、复杂指令集与精简指令集区别

从硬件角度来看CISC处理的是不等长指令集，它必须对不等长指令进行分割，因此在执行单一指令的时候需要进行较多的处理工作。而RISC执行的是等长精简指令集，CPU在执行指令的时候速度较快且性能稳定。因此在并行处理方面RISC明显优于CISC，RISC可同时执行多条指令，它可将一条指令分割成若干个进程或线程，交由多个处理器同时执行。由于RISC执行的是精简指令集，所以它的制造工艺简单且成本低廉。

从软件角度来看，CISC运行的则是我们所熟识的Windows操作系统。而且它拥有大量的应用程序。因为全世界有65%以上的软件厂商都为基于CISC体系结构的PC及其兼容机服务的，象赫赫有名的Microsoft就是其中的一家。而RISC在此方面却显得有些势单力薄。虽然在RISC上也可运行Windows，但是需要一个翻译过程，所以运行速度要慢许多。

CPU的架构

一、X86 CPU架构

1978年6月8日，Intel发布了史诗级的CPU处理器8086，由此X86架构传奇正式拉开帷幕。首次为8086引入X86作为计算机语言的指令集，定义了一些基本使用规则，X86架构使用的是CISC复杂指令集。同时8086处理器的大获成功也直接让Intel成为了CPU巨头.

英特尔推出X86架构已满40年了，同486相比，Pentium向前迈进了一大步，而P Ⅱ的前进步伐则没有这么大了，X86 CPU的发展似乎已到了尽头。英特尔非常清楚，是X86指令集限制了CPU性能的进一步提高，因此，他们正同惠普共同努力开发下一代指令集架构（Instruction Set Architecture ，ISA）：EPIC（Explicitly Parallel Instruction Computing，显性并行指令计算）。

对英特尔而言， IA-64（英特尔的64位架构）是下一个10到15年的架构。新的ISA将使英特尔摆脱X86架构的限制，从而设计出超越所有现有RISC CPU和X86 CPU的新型处理器。

为什么英特尔会放弃使它成为芯片巨人的X86架构呢？X86架构的不足之处又在哪里呢？

可变的指令长度：X86指令的长度是不定的，而且有几种不同的格式，结果造成X86 CPU的解码工作非常复杂，为了提高CPU的工作频率，不得不延长CPU中的流水线，而过长的流水线在分支预测出错的情况下，又会带来CPU工作停滞时间较长的弊端。
寄存器的贫乏：X86指令集架构只有8个通用寄存器，而且实际只能使用6个。这种情况同现代的超标量CPU极不适应，虽然工程师们采用寄存器重命名的技术来弥补这个缺陷，但造成了CPU过于复杂，流水线过长的局面。
内存访问：X86指令可访问内存地址，而现代RISC CPU则使用LOAD/STORE模式，只有LOAD和STORE指令才能从内存中读取数据到寄存器，所有其他指令只对寄存器中的操作数计算。在CPU的速度是内存速度的5倍或5倍以上的情况下，后一种工作模式才是正途。
浮点堆栈：X87 FPU是目前最慢的FPU，主要的原因之一就在于X87指令使用一个操作数堆栈。如果没有足够多的寄存器进行计算，你就不得不使用堆栈来存放数据，这会浪费大量的时间来使用FXCH指令（即把正确的数据放到堆栈的顶部）。　　
4GB限制：这似乎不是问题，但是，在2000年前，主流PC只有4MB内存，现在绝大部分PC装备了2G以上的内存，是以前的512倍，所以，PC内存突破16GB绝对不会令人惊讶，大型服务器已经使用了32GB以上的内存，突破64GB内存的情况已经出现。
芯片变大：所有用于提高X86 CPU性能的方法，如寄存器重命名、巨大的缓冲器、乱序执行、分支预测、X86指令转化等等，都使CPU的芯片面积变得更大，也限制了工作频率的进一步提高，而额外集成的这些晶体管都只是为了解决X86指令的问题。

二、ARM CPU架构

在PC领域，Intel的CPU一枝独秀。而在移动端呢?那就当属ARM了。ARM全称为Advanced RISC Machine，也就是进阶精简指令集机器。ARM是RISC微处理器的代表作之一，其广泛的在嵌入式系统设计中被使用。而且ARM处理器最大的特点在于节能，这也是其在移动通信领域无人能敌的原因之一。

随着物联网时代降临，对于低功耗性ARM芯片需求量会发生爆炸性增长。

三、MIPS CPU架构

MIPS是世界上很流行的一种RISC处理器。MIPS的意思是“无内部互锁流水级的微处理器”(Microprocessor without interlocked piped stages)，其机制是尽量利用软件办法避免流水线中的数据相关问题。它最早是在80年代初期由斯坦福(Stanford)大学Hennessy教授领导的研究小组研制出来的。MIPS公司的R系列就是在此基础上开发的RISC工业产品的微处理器。这些系列产品为很多计算机公司采用构成各种工作站和计算机系统。

MIPS技术公司是美国著名的芯片设计公司，它采用精简指令系统计算结构(RISC)来设计芯片。和英特尔采用的复杂指令系统计算结构(CISC)相比，RISC具有设计更简单、设计周期更短等优点，并可以应用更多先进的技术，开发更快的下一代处理器。MIPS是出现最早的商业RISC架构芯片之一，新的架构集成了所有原来MIPS指令集，并增加了许多更强大的功能。

在2007年，中科院计算机研究所的龙芯处理器获得了MIPS的全部专利、指令集授权，中国开始走上了以MIPS为基础的CPU研发道路。

四、PowerPC CPU架构

PowerPC 是一种精简指令集（RISC）架构的中央处理器（CPU），其基本的设计源自IBM（国际商用机器公司）的IBM PowerPC 601 微处理器POWER。二十世纪九十年代，IBM(国际商用机器公司)、Apple（苹果公司）和Motorola（摩托罗拉）公司开发PowerPC芯片成功，并制造出基于PowerPC的多处理器计算机。PowerPC架构的特点是可伸缩性好、方便灵活。

PowerPC 处理器有广泛的实现范围，包括从诸如 Power4 那样的高端服务器 CPU 到嵌入式 CPU 市场。PowerPC 处理器有非常强的嵌入式表现，因为它具有优异的性能、较低的能量损耗以及较低的散热量。除了象串行和以太网控制器那样的集成 I/O，该嵌入式处理器与“台式机”CPU 存在非常显著的区别。

五、SPARC CPU架构

SPARC已发展成为一个开放的标准，任何机构或个人均可研究或开发基于SPARC架构的产品，而无需交纳版权费。SPARC 处理器架构具备精简指令集（RISC）、支持32 位/64 位指令精度，架构运行稳定、可扩展性优良、体系标准开放等特点。又有被Oracle收购了，但是最后Oracle放弃了硬件业务，于是SPARC架构失败在了历史的长河中。

CPU的基本功能

CPU控制整个程序的执行，它具有以下基本功能：

一、程序控制

程序控制就是控制指令的执行顺序。

程序是指令的有序集合，这些指令的相互顺序不能任意颠倒，必须严格按程序规定的顺序执行。

保证计算机按一定顺序执行程序是CPU的首要任务。

二、操作控制

操作控制就是控制指令进行操作。

一条指令的功能往往由若干个操作信号的组合来实现。因此，CPU管理并产生每条指令的操作信号，把各种操作信号送往相应的部件，从而控制这些部件按指令的要求进行操作。

三、时间控制

时间控制就是对各种操作实施定时控制。

在计算机中，各种指令的操作信号和一条指令的整个执行过程都受到严格定时。只有这样，计算机才能有条不紊地工作。

四、数据加工

数据加工就是对数据进行算术、逻辑运算。

完成数据的加工处理，是CPU的根本任务。

CPU的基本组成

一、运算器

运算器是计算机中用于实现数据加工处理等功能的部件，它接受控制器的命令，负责完成对操作数据的加工处理任务，其核心部件是算术逻辑单元(Arithmetic Logic Unit，ALU)。

相对控制器而言，运算器接受控制器的命令而进行动作，即运算器所进行的全部操作都是由控制器发出的控制信号来指挥的，所以它是执行部件。

然后对于运算器来说，我们要了解其中的几个重要角色，接下来我会挨个介绍：

1. 算术逻辑单元（ALU）

这个是运算器中重要的一个组成，主要负责的就是对数据的处理，从而实现对数据的算术和逻辑运算。

2. 累计寄存器（AC）

累加寄存器通常简称累加器（Accumulator，AC），是一个通用寄存器。

累加器的功能是：当运算器的算术逻辑单元(ALU)执行算术或逻辑运算时，为ALU提供一个工作区，可以为ALU暂时保存一个操作数或运算结果。

显然，运算器中至少要有一个累加寄存器。

3. 数据缓冲寄存器（DR）

数据寄存器（Data Register，DR）主要作为CPU和主存、外设之间信息传输的中转站，用以弥补CPU和主存、外设之间操作速度上的差异。

数据寄存器用来暂时存放由主存储器读出的一条指令或一个数据字；反之，当向主存存入一个数据字时，也暂时将它们存放在数据寄存器中。

数据寄存器的作用是：

作为CPU和主存、外围设备之间信息传送的中转站；
弥补CPU和主存、外围设备之间在操作速度上的差别；

在单累加器结构的运算器中，数据寄存器还可兼作操作数寄存器。

4. 状态条件寄存器（PSW）

程序状态字（Program Status Word，PSW）用来表征当前运算的状态及程序的工作方式。

程序状态字寄存器保存由算术指令和逻辑指令运行或测试的结果所建立起来的各种条件码内容，如运算结果进/借位标志(C)、运算结果溢出标志（O)、运算结果为零标志(Z)、运算结果为负标志(N)、运算结果符号标志（S）等，这些标志位通常分别用1位触发器来保存。

除此之外，程序状态字寄存器还保存中断和系统工作状态等信息，以便CPU和系统及时了解机器运行状态和程序运行状态。

因此，程序状态字寄存器是一个保存各种状态条件标志的寄存器。

二、控制器

控制器是整个计算机系统的指挥中心。在控制器的指挥控制下，运算器、存储器和输入/输出设备等部件协同工作，构成了一台完整的通用计算机。

控制器根据程序预定的指令执行顺序，从主存取出一条指令，按该指令的功能，用硬件产生所需的带有时序标志的一系列微操作控制信号，控制计算机内各功能部件的操作，协调和指挥整个计算机完成指令的功能。

同样的，对于控制器来说，我们需要重点关注如下几个：

1. 指令寄存器（IR）

指令寄存器（Instruction Register，IR）用来保存当前正在执行的一条指令。

当执行一条指令时，先把该指令从主存读取到数据寄存器中，然后再传送至指令寄存器。

一条指令被划分为操作码和地址码2个字段。为了执行任何给定的指令，必须对操作码进行测试，以便识别所要求的操作。指令译码器（Instruction Decoder，ID）就是完成这项工作的。

指令译码器对来自指令寄存器的操作码部分进行译码，以产生操作性质的控制电位，并将其送到微操作控制线路上，在时序部件定时信号作用下，产生具体的操作控制信号。

指令寄存器中操作码字段的输出就是指令译码器的输入。操作码一经译码后，即可向操作控制器发出具体操作的特定信号。

2. 程序计数器（PC）

程序计数器（Program Counter，PC）用来指出下一条指令在主存储器中的单元地址。

它保存着下一条要执行的指令，也就是说当一个程序要执行的时候，会把这个程序的起始地址存到这个PC中，如果这个指令被执行的话也不用担心，CPU会自动修改，使得PC存放下一条要执行的指令。

3. 地址寄存器（AR）

地址寄存器（Address Register，AR）用来保存CPU当前所访问的主存单元的地址。

由于在主存和CPU之间存在操作速度上的差异，所以必须使用地址寄存器来暂时保存主存的地址信息，直到主存的存取操作完成为止。

当CPU和主存进行信息交换，即CPU向主存存入/取出数据时，或者CPU从主存中读出指令时，都要使用地址寄存器和数据寄存器。

同样，如果我们把外围设备的设备地址作为像主存的地址单元那样来看待，那么，当CPU和外围设备交换信息时，我们同样要使用地址寄存器和数据寄存器。

4. 指令译码器（ID）

指令译码器（Instruction Decoder，ID）指令分为操作码和地址码两部分，为了能执行任何给定的指令，必须对操作码进行分析，以便识别所完成的操作。ID就是对指令中的操作码字段进行分析解释，识别该指令规定的操作，向操作控制器发出具体的控制信号，控制各部件工作，完成所需的功能。

CPU的缓存

CPU缓存（Cache Memory）位于CPU与内存之间的临时存储器，它的容量比内存小但交换速度快。在缓存中的数据是内存中的一小部分，但这一小部分是短时间内CPU即将访问的，当CPU调用大量数据时，就可避开内存直接从缓存中调用，从而加快读取速度。由此可见，在CPU中加入缓存是一种高效的解决方案，这样整个内存储器（缓存+内存）就变成了既有缓存的高速度，又有内存的大容量的存储系统了。缓存对CPU的性能影响很大，主要是因为CPU的数据交换顺序和CPU与缓存间的带宽引起的。

缓存的工作原理是当CPU要读取一个数据时，首先从缓存中查找，如果找到就立即读取并送给CPU处理；如果没有找到，就用相对慢的速度从内存中读取并送给CPU处理，同时把这个数据所在的数据块调入缓存中，可以使得以后对整块数据的读取都从缓存中进行，不必再调用内存。

正是这样的读取机制使CPU读取缓存的命中率非常高（大多数CPU可达90%左右），也就是说CPU下一次要读取的数据90%都在缓存中，只有大约10%需要从内存读取。这大大节省了CPU直接读取内存的时间，也使CPU读取数据时基本无需等待。总的来说，CPU读取数据的顺序是先缓存后内存。

最早先的CPU缓存是个整体的，而且容量很低，英特尔公司从Pentium时代开始把缓存进行了分类。当时集成在CPU内核中的缓存已不足以满足CPU的需求，而制造工艺上的限制又不能大幅度提高缓存的容量。因此出现了集成在与CPU同一块电路板上或主板上的缓存，此时就把 CPU内核集成的缓存称为一级缓存，而外部的称为二级缓存。一级缓存中还分数据缓存（Data Cache，D-Cache）和指令缓存（Instruction Cache，I-Cache）。二者分别用来存放数据和执行这些数据的指令，而且两者可以同时被CPU访问，减少了争用Cache所造成的冲突，提高了处理器效能。英特尔公司在推出Pentium 4处理器时，用新增的一种一级追踪缓存替代指令缓存，容量为12KμOps，表示能存储12K条微指令。

随着CPU制造工艺的发展，二级缓存也能轻易的集成在CPU内核中，容量也在逐年提升。现在再用集成在CPU内部与否来定义一、二级缓存，已不确切。而且随着二级缓存被集成入CPU内核中，以往二级缓存与CPU大差距分频的情况也被改变，此时其以相同于主频的速度工作，可以为CPU提供更高的传输速度。

二级缓存是CPU性能表现的关键之一，在CPU核心不变化的情况下，增加二级缓存容量能使性能大幅度提高。而同一核心的CPU高低端之分往往也是在二级缓存上有差异，由此可见二级缓存对于CPU的重要性。

CPU在缓存中找到有用的数据被称为命中，当缓存中没有CPU所需的数据时（这时称为未命中），CPU才访问内存。从理论上讲，在一颗拥有二级缓存的CPU中，读取一级缓存的命中率为80%。也就是说CPU一级缓存中找到的有用数据占数据总量的80%，剩下的20%从二级缓存中读取。由于不能准确预测将要执行的数据，读取二级缓存的命中率也在80%左右（从二级缓存读到有用的数据占总数据的16%）。那么还有的数据就不得不从内存调用，但这已经是一个相当小的比例了。目前的较高端的CPU中，还会带有三级缓存，它是为读取二级缓存后未命中的数据设计的—种缓存，在拥有三级缓存的CPU中，只有约5%的数据需要从内存中调用，这进一步提高了CPU的效率。

为了保证CPU访问时有较高的命中率，缓存中的内容应该按一定的算法替换。一种较常用的算法是“最近最少使用算法”（LRU算法），它是将最近一段时间内最少被访问过的行淘汰出局。因此需要为每行设置一个计数器，LRU算法是把命中行的计数器清零，其他各行计数器加1。当需要替换时淘汰行计数器计数值最大的数据行出局。这是一种高效、科学的算法，其计数器清零过程可以把一些频繁调用后再不需要的数据淘汰出缓存，提高缓存的利用率。

CPU的扩展指令集

指令集是一直在发展的，在CISC指令集中，慢慢的发展了一系列的指令集：

一、X86指令集：

X86指令集是Intel为其第一块16位CPU(i8086)专门开发的，IBM1981年推出的世界第一台PC机中的CPU—i8088(i8086简化版)使用的也是X86指令，同时电脑中为提高浮点数据处理能力而增加的X87芯片系列数学协处理器则另外使用X87指令，以后就将X86指令集和X87指令集统称为X86指令集。

二、MMX指令集：

MMX（Multi Media eXtension，多媒体扩展指令集）指令集是Intel公司于1996年推出的一项多媒体指令增强技术。MMX指令集中包括有57条多媒体指令，通过这些指令可以一次处理多个数据，在处理结果超过实际处理能力的时候也能进行正常处理，这样在软件的配合下，就可以得到更高的性能。MMX的益处在于，当时存在的操作系统不必为此而做出任何修改便可以轻松地执行MMX程序。但是，问题也比较明显，那就是MMX指令集与x86浮点运算指令不能够同时执行，必须做密集式的交错切换才可以正常执行，这种情况就势必造成整个系统运行质量的下降。

三、SSE指令集：

SSE（Streaming SIMD Extensions，单指令多数据流扩展）指令集是Intel在Pentium III处理器中率先推出的。其实，早在PIII正式推出之前，Intel公司就曾经通过各种渠道公布过所谓的KNI（Katmai New Instruction）指令集，这个指令集也就是SSE指令集的前身，并一度被很多传媒称之为MMX指令集的下一个版本，即MMX2指令集。究其背景，原来"KNI"指令集是Intel公司最早为其下一代芯片命名的指令集名称，而所谓的"MMX2"则完全是硬件评论家们和媒体凭感觉和印象对"KNI"的评价，Intel公司从未正式发布过关于MMX2的消息。

而最终推出的SSE指令集也就是所谓胜出的"互联网SSE"指令集。SSE指令集包括了70条指令，其中包含提高3D图形运算效率的50条SIMD（单指令多数据技术）浮点运算指令、12条MMX 整数运算增强指令、8条优化内存中连续数据块传输指令。理论上这些指令对目前流行的图像处理、浮点运算、3D运算、视频处理、音频处理等诸多多媒体应用起到全面强化的作用。S SE指令与3DNow!指令彼此互不兼容，但SSE包含了3DNow!技术的绝大部分功能，只是实现的方法不同。SSE兼容MMX指令，它可以通过SIMD和单时钟周期并行处理多个浮点数据来有效地提高浮点运算速度。

四、SSE2指令集：

SSE2(Streaming SIMD Extensions 2，Intel官方称为SIMD 流技术扩展 2或数据流单指令多数据扩展指令集 2)指令集是Intel公司在SSE指令集的基础上发展起来的。相比于SSE，SSE2使用了144个新增指令，扩展了MMX技术和SSE技术，这些指令提高了广大应用程序的运行性能。随MMX技术引进的SIMD整数指令从64位扩展到了128 位，使SIMD整数类型操作的有效执行率成倍提高。双倍精度浮点SIMD指令允许以 SIMD格式同时执行两个浮点操作，提供双倍精度操作支持有助于科学应用。除SSE2指令之外，最初的SSE指令也得到增强，通过支持多种数据类型(例如，双字和四字)的算术运算，支持灵活并且动态范围更广的计算功能。SSE2指令可让软件开发员极其灵活的实施算法，并在运行诸如MPEG-2、MP3、3D图形等之类的软件时增强性能。Intel是从Willamette核心的Pentium 4开始支持SSE2指令集的，而AMD则是从K8架构的SledgeHammer核心的Opteron开始才支持SSE2指令集的。

五、SSE3指令集：

SSE3(Streaming SIMD Extensions 3，Intel官方称为SIMD 流技术扩展 3或数据流单指令多数据扩展指令集 3)指令集是Intel公司在SSE2指令集的基础上发展起来的。相比于SSE2，SSE3在SSE2的基础上又增加了13个额外的SIMD指令。SSE3 中13个新指令的主要目的是改进线程同步和特定应用程序领域，例如媒体和游戏。这些新增指令强化了处理器在浮点转换至整数、复杂算法、视频编码、SIMD浮点寄存器操作以及线程同步等五个方面的表现，最终达到提升多媒体和游戏性能的目的。Intel是从Prescott核心的Pentium 4开始支持SSE3指令集的，而AMD则是从2005年下半年Troy核心的Opteron开始才支持SSE3的。但是需要注意的是，AMD所支持的SSE3与Intel的SSE3并不完全相同，主要是删除了针对Intel超线程技术优化的部分指令。

六、SSE4指令集：

SSE4又增加了50条新的增加性能的指令，这些指令有助于编译、媒体、字符/文本处理和程序指向加速。

七、3D Now!扩展指令集：

3D Now!指令集是AMD公司1998年开发的多媒体扩展指令集，共有21条指令。针对MMX指令集没有加强浮点处理能力的弱点，重点提高了AMD公司K6系列CPU对3D图形的处理能力。由于指令有限，3D Now!指令集主要用于3D游戏，而对其他商业图形应用处理支持不足。

八、EM64T指令集：

Intel公司的EM64T（Extended Memory 64 Technology）即64位内存扩展技术。该技术为服务器和工作站平台应用提供扩充的内存寻址能力，拥有更多的内存地址空间，可带来更大的应用灵活性，特别有利于提升音频视频编辑、CAD设计等复杂工程软件及游戏软件的应用。

九、3DNow!+指令集：

在原有的指令集基础上，增加到52条指令，其中包含了部分SSE指令，该指令集主要用于新型的AMD CPU上。

十、AVX指令集：

Intel公司将为Sandy Bridge带来全新的指令扩展集Intel Advanced Vector Extensions (Intel AVX)。AVX是在之前的128 bit扩展到和256 bit的SIMD(Single Instruction, Multiple Data)。而Sandy Bridge的SIMD演算单元扩展到256 bits的同时数据传输也获得了提升，所以从理论上看CPU内核浮点运算性能提升到了2倍。

CPU的超线程技术

Intel则采用另一个思路去提高CPU的性能，让CPU可以同时执行多重线程，就能够让CPU发挥更大效率，即所谓“超线程（Hyper-Threading，简称“HT”）”技术。超线程技术就是利用特殊的硬件指令，把两个逻辑内核模拟成两个物理芯片，让单个处理器都能使用线程级并行计算，进而兼容多线程操作系统和软件，减少了CPU的闲置时间，提高的CPU的运行效率。

采用超线程及时可在同一时间里，应用程序可以使用芯片的不同部分。虽然单线程芯片每秒钟能够处理成千上万条指令，但是在任一时刻只能够对一条指令进行操作。而超线程技术可以使芯片同时进行多线程处理，使芯片性能得到提升。

例如CPU在执行一条机器指令时，并不会完全地利用所有的CPU资源，而且实际上，是有大量资源被闲置着的。超线程技术允许两个线程同时不冲突地使用CPU中的资源。比如一条整数运算指令只会用到整数运算单元，此时浮点运算单元就空闲了，若使用了超线程技术，且另一个线程刚好此时要执行一个浮点运算指令，CPU就允许属于两个不同线程的整数运算指令和浮点运算指令同时执行。

总结

本文简单介绍了CPU相关的基础知识，作为软件从业人员必不可少会和CPU打交道，比如想要提升程序的执行性能采用了多线程的技术，那么是否线程数开的越多越好呢，CPU又是如何调度这些线程的执行的等等。CPU是一个复杂的东西，后续会出一系列文章来讲解它，理解了它，可以让我们编写的程序具有更好的执行性能。

参考资料

英特尔®架构指令集扩展编程参考

https://software.intel.com/sites/default/files/managed/c5/15/architecture-instruction-set-extensions-programming-reference.pdf
https://www.intel.cn/content/www/cn/zh/gaming/resources/hyper-threading.html?wapkw=超线程
http://bbs.zol.com.cn/diybbs/d34431_2943.html
https://en.wikipedia.org/wiki/Central_processing_unit