CPU线程与超线程技术_ht单位 cpu-CSDN博客

本文链接：https://blog.csdn.net/qq_28242041/article/details/125383889

本文探讨了CPU线程与OS线程的区别，介绍了HT/SMT技术如何通过虚拟核心提升并行性能，以及SIMT和SIMD在并行计算中的应用。重点讲述了SMT的优缺点和SIMT与SIMD的异同，适合理解多线程和并行计算技术的读者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、CPU线程与OS线程
- 1. CPU中的thread
- 2. OS中的thread
二、HT/SMT技术
三、SIMT与SIMD

一、CPU线程与OS线程

1. CPU中的thread

CPU中的线程来自同步多线程（SMT，Simultaneous Multi-threading）的概念，最早Intel使用了这种技术时候就叫做SMT，但后面改叫做HT (Hyper Threading)。

经常看到的2C4T的意思就是2核4线程。1个内核中的thread是对称的和对等的，在软件上没有任何区别，BIOS也只有通过一些特殊手段才能区分。4个thread调度起来没有本质区别，它们都有自己的APIC ID。用Local APIC寄存器发出IPI（Inter-Processor Interrupts），指定APIC ID的线程即被调度执行相应地址的指令了，也可以广播IPI让所有的thread都去执行指定任务。

操作系统并不探测CPU中thread的数量，而是通过广播IPI让各个thread自己来签到，再由BIOS通过APIC报告给OS的。

2. OS中的thread

OS中的线程有自己的栈空间，和同一进程中的其他线程共享地址空间。

操作系统中的进程可以很多，进程中的线程就更多了，常常有几十个上百个。而CPU的Thread就那么固定几个，是稀缺资源。两者都叫Thread是因为他们都是调度的基本单位。操作系统负责把它产生的软Thread调度到CPU中的硬Thread。

二、HT/SMT技术

1. 定义

把所有一个物理核心上有多个虚拟核心的技术都叫做HT/SMT，初衷是通过提升CPU核心后端执行单元的利用率，来提升整体的并行性能。

相比于增加物理核心，使用SMT来的更加廉价。因为SMT提供的是虚拟核心，所有虚拟核心共享很大一部分的资源，通常加入SMT技术只需要在前端额外增加一部分资源（毕竟两个任务是两个上下文）就可以。

2. 原理

除了频率以外，要提升CPU的单核性能，第一个常见手段就是尽可能的缩短每个指令执行的周期。第二个常见手段就是指令级并行（ILP），只要两个指令之间没有依赖（彼此不依赖对方执行后的数据）和冲突（不共享资源，不是一类操作）就可以并发执行，从而缩短总的执行时间。

显然，如果在一个CPU核心同时执行几组任务，那么CPU至少具备多组执行端口。所以现代的CPU要提升单核性能，都会尽可能的把后端的执行端口数目变多，并且尽可能的在单位时间内读入更多指令，从而促进指令间的并发。

实际的任务里，指令之间的依赖冲突关系是错综复杂的，不可能完美的将指令均匀的分组到每一个端口上。随着单核性能的不断提升，后端执行资源也越来越丰富，这种执行端口闲置的情况就会越来越明显，造成资源浪费。这时候，为了将这些资源物尽其用，SMT就应运而生了。SMT的思路是这样的，既然一个任务填不满后端的资源，那么我们就找不只一个任务来填就好了，不同任务之间的相互依赖和冲突情况很低，放到一起来执行正合适去填满后端资源，所以可以用不同的任务尽可能填满后端资源。
在这里插入图片描述

上图表示了在一个CPU核心上虚拟出两个虚拟核心，同时执行两个任务，从而缩短了执行时间。我们可以通过引入更多的虚拟核心，来进一步压榨利用率，只不过随着SMT虚拟的核心增多，提升的比率是在下降的。

3. 带来的问题

a. 多线程维护开销：一个物理核心如果引入多个线程，那么是要协调、隔离多个线程的，这会引入额外的开销。所以如果一个核心有两个线程，那么两个线程的总执行时间会更快，但是如果细分到每一个线程的执行时间，会比分别执行来的慢一些。

b. 资源冲突：SMT核心中，因为多个逻辑核心会共享很多资源，如果两个线程的性质比较接近，总是在使用类似的资源，那么它们会遭遇资源冲突。程度轻一点的情况下，互相等待一下就好，多牺牲一点单线程性能，还能保证多线程效率。而差一点的情况就是资源冲突反而导致性能下降。最典型的冲突就是缓存的冲突，一个线程可以用100%的缓存，而超过一个线程使用同一个缓存，可用缓存就不是100%，会导致大量开销极大的缓存-内存换入换出。只要有一个线程是非常吃缓存的，那么加入SMT不但不会提升总的执行效率，反而会降低整体的效率。SMT非常忌讳不同线程的资源冲突，一但冲突SMT就很容易引入反面效果。比如在很多云服务器、HPC服务器上，SMT通常是关闭的，就是因为资源冲突。

c. 线程安全问题：两个线程在同一个核心内执行，是需要严格隔离它们的上下文的，线程A不能访问修改其他线程的资源。线程隔离是一个非常复杂和繁琐的过程，如果隔离不彻底，那么会导致执行错误、以及隐私泄漏的问题。Intel前两年Skylake爆发的若干安全漏洞，就是因为线程隔离不到位造成的。

d. 导致功耗增加：SMT整体的思路是略微牺牲单核性能/能耗比，换取大多数情况下的多线程时的单核性能和能耗比，那么对应的加入SMT后单核的能耗比会有些许倒退。由于引入SMT会导致核心设计更加复杂，静态功耗、漏电会更难控制，这对于移动设备是致命的。这也是为什么SMT在PC和服务器上大行其道这么多年，手机上几乎看不到的原因。

三、SIMT与SIMD

1. SIMT

SIMT：single instruction，multiple threads。SIMT类似CPU上的多线程。最简单的理解SIMT的是想象有这样一个多核系统，每一个core有自己的寄存器文件、自己的ALU、自己的data cache，但是没有独立的instruction cache、独立的解码器、独立的Program Counter register，命令是从单一的instruction cache同时被广播给多个SIMT core的。即所有的core是各有各的执行单元，数据不同，执行的命令却是相同的。

2. SIMD

SIMD：single instruction, multiple data。Flynn分类法中的一种并行计算机。这种方法是指对多个进行同样操作的处理元素同时进行同等操作。这种机器利用了数据级别的并行性，而不是并发性（不是多线程那种）。SIMD允许使用单一命令对多个数据值进行操作，仅需要一个核心，只有一个进程在运行，多个计算共用一个ALU，只不过一次操作多个数据而已。这是一种增加CPU的计算能力的便宜的方法。仅需要宽的ALU和较小的控制逻辑。