了解Linux内核NUMA机制

最新推荐文章于 2023-05-11 16:11:46 发布

bcbobo21cn

最新推荐文章于 2023-05-11 16:11:46 发布

阅读量196

点赞数

分类专栏： Linux开发操作系统研发和研究文章标签： linux NUMA

原文链接：https://zhuanlan.zhihu.com/p/487582721

版权

操作系统研发和研究同时被 2 个专栏收录

121 篇文章 13 订阅

订阅专栏

Linux开发

75 篇文章 2 订阅

订阅专栏

NUMA

传统的SMP（对称多处理器）中，所有处理器都共享系统总线，因此当处理器的数目增大时，系统总线的竞争冲突加大，系统总线将成为瓶颈，所以目前SMP系统的CPU数目一般只有数十个，可扩展能力受到极大限制。
NUMA技术有效结合了SMP系统易编程性和MPP（大规模并行）系统易扩展性的特点，较好解决了SMP系统的可扩展性问题，已成为当今高性能服务器的主流体系结构之一。
基于NUMA架构的高性能服务器有HP的Superdome、SGI的Altix 3000、IBM的 x440、NEC的TX7、AMD的Opteron等。

NUMA（Non Uniform Memory Access）技术可以使众多服务器像单一系统那样运转，同时保留小系统便于编程和管理的优点。

那么NUMA不是我们日常用的电脑，是用于高性能服务器。

NUMA存储管理

NUMA系统是由多个结点通过高速互连网络连接而成的。
NUMA系统的结点通常是由一组CPU（如，SGI Altix 3000是2个Itanium2 CPU）和本地内存组成，有的结点可能还有I/O子系统。
前IA64 Linux所支持的NUMA架构服务器的物理拓扑描述是通过ACPI（Advanced Configuration and Power Interface）实现的。ACPI是由Compaq、Intel、Microsoft、Phoenix和Toshiba联合制定的BIOS规范，它定义了一个非常广泛的配置和电源管理。

Linux对NUMA系统的物理内存分布信息是从系统firmware的ACPI表中获得的，最重要的是SRAT（System Resource Affinity Table）和SLIT（System Locality Information Table）表。

结点

Linux用一个struct pg_data_t结构来描述系统的内存，系统中每个结点都挂接在一个pgdat_list列表中，对UMA体系结构，则只有一个静态的pg_data_t结构contig_page_data。对NUMA系统来说则非常容易扩充，NUMA系统中一个结点可以对应Linux存储描述中的一个结点，具体描述见linux/mmzone.h。

系统中所有结点都维护在 pgdat_list 列表中，在 init_bootmem_core 函数中完成该列表初始化工作。

NUMA调度器

NUMA系统中，由于局部内存的访存延迟低于远地内存访存延迟，因此将进程分配到局部内存附近的处理器上可极大优化应用程序的性能。Linux 2.4内核中的调度器由于只设计了一个运行队列，可扩展性较差，在SMP平台表现一直不理想。当运行的任务数较多时，多个CPU增加了系统资源的竞争，限制了负载的吞吐率。在2.5内核开发时，写了一个多队列调度器，称为O(1)，从2.5.2开始O(1)调度器已集成到2.5内核版本中。
开发了结点亲和的NUMA调度器，它是建立在O(1)调度器基础上的，将该调度器向后移植到2.4.X内核中。