多处理器、NUMA 支持，Thread Ordering Service（线程排序服务）？

最新推荐文章于 2024-07-04 13:48:21 发布

kiki商

最新推荐文章于 2024-07-04 13:48:21 发布

阅读量1.3k

点赞数

分类专栏：基础知识 windows编程

基础知识同时被 2 个专栏收录

98 篇文章 1 订阅

订阅专栏

windows编程

52 篇文章 4 订阅

订阅专栏

具有多处理器的计算器通常有两种体系结构：非统一内存访问（NUMA）或对称多处理（SMP）。在NUMA 计算机中，每个处理器比其他处理器更靠近内存的某些部分，使得内存的某些部分的内存访问速度比其他部分更快。在NUMA 模型下，系统尝试在接近正在使用的内存的处理器上调度线程。

SMP 计算机中，两个或多个相同的处理器或核心链接到单个共享主存储器。在SMP 模型下，可以将任何线程分配给任何处理器。因此，在SMP 计算机上调度线程类似于在具有单个处理器的计算机上调度线程。但是，调度程序具有一个处理器池，因此它可以调度线程以同时运行。调度仍然由线程优先级决定，但可以通过设置线程亲和性和线程理想处理器来影响这个选择。

线程亲和性

线程亲和性强制线程在所有处理器的一个子集上执行。通常不应该设置线程的亲和性。因为他可能干扰调度程序跨处理器有效调度线程的能力。这可以降低并行处理产生的性能增强。使用线程亲和性是测试每个处理器，系统使用一个称为处理器亲和性掩码的东西表示亲和性，亲和性掩码的值，是系统中处理器的最大的数量，通过bit 设置来标志处理器的一个子集。最初，系统确定掩码中的处理器子集。可以调用GetProcessAffinityMask 查看进程中所有线程的当前亲和性。使用SetProcessAffinitymask ，为进程的所有线程指定关联。要为单个线程设置线程关联，使用SetThreadAffinityMask 设置线程关联。

在具有超过64 个处理器的系统上，关联掩码最初表示单个处理器组中的处理器。但是，可以将线程关联性设置为不同组中的处理器，这会改变进程的关联掩码。详情参见Processor Groups

线程理想处理器

当指定线程理想处理器，调度器在可能的时候，在该指定的处理器上执行你的线程。使用SetThreadIdealProcessor 指定线程的理想处理器。但不是保证的。在超过64 个处理器的系统上，使用SetThreadIdealProcessorEx 指定特定的处理器组上的特定的处理器。

NUMA 支持

多处理器支持的传统模型是对称多处理器（SMP）。在此模型中，每个处理器都具有对内存和I/O 的相同访问权限。随着更多处理器的添加，处理器总线成为系统性能的限制。

系统设计人员使用非均匀内存访问（NUMA）来提高处理器速度，而不会增加处理器总线上的负载。该架构是不均匀的，因为每个处理器靠近存储器的某些部分并且远离存储器的其他部分。处理器可以快速访问它接近的内存，而可能需要更长时间才能访问更远的内存。

在NUMA 系统中，CPU 被安排在称为节点的较小系统中。每个节点都有子集的处理器和内存，并通过缓存一致的互连总线连接到更大的系统。

系统尝试通过在与正在使用的内存位于同一节点的处理器上调度线程来尝试提高性能。它尝试从节点内满足内存分配请求，但如有必要，将从其他节点分配内存。它还提供了一个API ，使应用程序可以使用系统拓扑。可以通过使用NUMA 函数来优化调度和内存使用，并以此来提高应用程序的性能。

首先，需要确定系统中节点的布局。要检索系统中编号最大的节点，使用GetNumaHighestNodeNumber。注意，这个值，不保证，等于系统中的节点总数。此外，不保证具有顺序的数字的节点靠近在一起。要检索系统上的处理器列表，使用GetProcessAffinityMask 函数。可以使用GetNumaProcessorNode 确定列表中每个处理器的节点。或，要检索节点中所有处理器的列表，使用GetNumaNodeProcessorMask。

确定哪些处理器属于哪些节点后，可以优化应用程序的性能。要确保进程的所有线程在同一个节点上的运行，使用带有进程关联掩码的SetProcessAffinityMask函数，该掩码指定同一节点中的处理器。这提高了线程需要访问相同内存的应用程序的效率。或者，要限制每个节点上的线程数，使用SetThreadAffinityMask 函数。内存密集型应用程序需要优化其内存使用量。要检索节点可用的可用内存量，使用GetNumaAvailiableMemoryNode 函数。VirtualAllocExNuma 函数使应用程序能够为内存分配指定首选节点。VirtualAllocExNuma 不分配任何物理页面，因此无论页面在该节点上还是系统中的其他位置都可用，它都将成功。物理页面按需分配。如果首选节点用完页面，则内存管理器将使用其他节点的页面。如果内存被换出（paged out），则在重新启用时会使用相同的过程。