CPU学习笔记(一)------SkyLake Microarchitecture详解

研究僧12138

已于 2022-11-18 11:51:03 修改

阅读量2.2k

点赞数 1

分类专栏： # 【intel】文章标签：学习系统安全密码学安全架构

于 2022-10-25 10:55:58 首次发布

本文链接：https://blog.csdn.net/qq_43727392/article/details/127508217

版权

【intel】专栏收录该内容

3 篇文章

订阅专栏

本文围绕CPU架构展开，先给出总体架构简图，按指令执行过程分前后端介绍。前端涵盖L1 Instruction Cache等多个组件，目的是让后端繁忙；后端包括ROB、RS等，还提及LoadBuffer存在ZombieLoad漏洞，同时指出图中部分组件有系统安全性漏洞。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在学习CPU架构相关内容，做个笔记，不足之处还望指出，共同交流进步

Sky Lake Architecture

1. CPU总体架构简图
2.CPU前端（Front End）
L1 Instruction Cache
Instruction Fetch & PreDecode
Instruction Queue
MS ROM (MocroCode Sequencer ROM)
DSB (Decode Stream Buffer)
SE (Stack Engine)
Allocation Queue (IDQ)
总结

3.CPU后端
ROB (Reorder Buffer)
RS(Scheduler unified reservation station)
Store Buffer && LoadBuffer

4. 参考资料

1. CPU总体架构简图

SkyLake总体架构

图中将CPU分为三个部分：

Front End（前端）
Out of Order Engine(无序执行引擎)
Memory Pipeline (存储系统)
图中标色部分表示现在存在系统安全性漏洞的组件，这张图主要是为了解释Meltdown漏洞，所以更加突出了OoO（Out of Order）部分的内容. 一般的，我们按照指令的执行过程将CPU分为前后端。本文以四段指令流水线为例。
四段指令流水线：Fetch、Decode、Execution、WriteBack/Store
前端| Fetch、Decode 后端| Execution、WriteBack/Store

2.CPU前端（Front End）

CPU前端 Front-end

L1 Instruction Cache

Instruction Fetch & PreDecode

从L2 Cache取得数据，是CPU最直接的数据来源，当CPU需要处理数据时，即从最近的L1cache中读取，若发生cache miss 则查Instruction TLB从L2中获取所需数据，若L2也发生cache miss,则逐级查询，直到查到指定数据或者发生页面错误。

Instruction Fetch & PreDecode

一个时钟周期读取16Bytes 对Cache Line中的二进制数据进行初步的识别解码，识别其中有几个汇编指令，确定指令边界，并将识别出的指令传入Instruction Queue。

Instruction Queue

对Instruction Fetch & PreDecode中识别出的汇编指令进行优化。这一步主要填补应用程序员编码时留下的坑，例有的高级代码有更加简介的写法，但是写的更复杂了。
本部分中Macro-Fusion将相近的多个汇编指令替换成一个或者更简单的指令执行，通过这一步骤的优化，减少汇编指令的数量，使得CPU有限的资源能够得到最大的利用，不做无意义的操作。

MS ROM (MocroCode Sequencer ROM)

MS ROM (MocroCode Sequencer ROM)
将Instruction Queue中传入的优化后的汇编指令进行解码，将指令长度不同的MOP替换成指令长度一样的微操作uOP，
图中可以看出，具有三个简单解码器，一个复杂编码器。简单编码器输出长度为1的微操作，大于1小于等于4个微操作由复杂解码器解码。需要指出的是：当Complex Decoder进行工作时，至少有一个Simple Decoder停止工作；当MS ROM工作时，所有的Complex/Simple Decoder停止工作。
若MOP解码后分为大于4个的uOP,则直接去MS ROM中进行查询生成，可以将 MS ROM 看作一个Cache。

DSB (Decode Stream Buffer)

DSB
微操作Cache,将一些已经解码的MOP对应的uOP存在其中，进一步加快解码速度。

SE (Stack Engine)

查询多路选择器MUX的输出结果中是否有return、Call等需要栈的操作，若有则执行，从而避免CPU执行时还需要中断处理，进而进一步加快CPU处理速度。

Allocation Queue (IDQ)

IDQ 曾名为Instruction Decoder Queue，IDQ，Allocation Queue作为前端与执行单元的接口，是Core前端的最后的一个部件。分配队列的目的是将微指令uOP进行重新整合与融合，发给执行单元进行乱序执行。分配队列又包含了Loop Stream Detector(LSD) 循环流检测器，对循环操作进行标记，避免重复解码与 up-Fusion(微指令融合单元)。融合是为了让后续解码单元更有效率并且节省ROB（re-order buffer）的空间。

总结

总而言之，Front End的目的是为了使得后端繁忙起来。

3.CPU后端

CPU后端 backend

ROB (Reorder Buffer)

ROB
ROB（re-order buffer）：重新排序缓冲区。ROB的存在ROB的目的为存储out-of-order的处理结果，作为EU的入口兼部分出口，它是乱序执行的最基本保证。当指令被传如ROB中，微指令流会以顺序执行的方式传入到后面的RS，在经过ROB时，会占用ROB的一个位置，这个位置是存储微指令乱序执行处理完成时候的结果，之后经过整合会顺序写回到相应的寄存器。而微指令在经过ROB时候会做一些优化。（消除寄存器移动，置零指令与置一指令等）。此外对于超线程中的寄存器别名技术在此经过RAT（寄存器别名表）进行寄存器重命名。