NUMA暗示错误（NUMA Hinting Fault）详解

本文链接：https://blog.csdn.net/ssd778/article/details/146062432

NUMA（Non-Uniform Memory Access，非一致性内存访问）是一种现代多核系统的内存架构，旨在解决传统SMP（Symmetric Multi-Processing，对称多处理）系统中内存带宽瓶颈的问题。在NUMA架构中：

例如，一个双socket服务器可能有两个NUMA节点，每个节点有独立的内存控制器和DRAM。访问远程节点的内存需要经过互连，导致更高的延迟（如文章中测得的130ns vs. 97ns）。

在NUMA系统中，理想情况下，进程的内存页面应位于运行该进程的CPU所在的节点，以最大化内存访问的局部性。然而：

为了解决这一问题，Linux内核引入了自动NUMA平衡（Automatic NUMA Balancing）机制，而NUMA暗示错误是其核心技术。它是一种软页面错误（soft page fault），由内核主动触发，用于收集页面访问信息，优化内存和任务的分配。

NUMA暗示错误是指，当进程访问某个内存页面时，内核利用页面错误机制“暗示”（hint）自己该页面的使用情况。这种错误不同于传统页面错误（例如页面未分配或被换出到磁盘），仅用于统计和优化，不中断进程执行。

NUMA暗示错误的实现是一个多阶段过程，涉及内核的内存管理、页面表操作和调度系统。以下是详细步骤：

触发条件：NUMA平衡默认在支持NUMA的系统上启用（kernel.numa_balancing=1）。
扫描线程：内核通过kswapd（内存回收守护进程）或独立的NUMA平衡线程定期扫描运行进程的虚拟地址空间。
页面表修改：
- 扫描时，内核访问每个进程的页面表（page table）。
- 对于扫描到的页面表条目（PTE），内核清除“present”位或“accessed”位。
- 示例：假设页面A的PTE原本标记为“present”，扫描后被置为“not present”。
扫描频率：由参数kernel.numa_balancing_scan_period_ms控制，默认值可能为10-60秒，具体取决于内核版本和配置。

页面访问：
- 当进程线程尝试访问被标记的页面（例如页面A）时，MMU（内存管理单元）发现PTE中的“present”位为0。
- 这触发一个软页面错误，进入内核的错误处理程序。
错误处理：
- 内核捕获错误，识别触发错误的虚拟地址和当前CPU。
- 示例：线程T1在NUMA节点0上运行，访问页面A（位于节点1），触发错误。
轻量级特性：NUMA暗示错误不会导致进程挂起，仅记录信息并快速返回用户态。

统计数据：
- 内核维护一个访问记录，可能存储在struct page的元数据中或独立的哈希表中。
- 记录内容包括：
  - 页面地址（虚拟或物理）。
  - 访问的NUMA节点（通过numa_node_id()获取）。
  - 访问次数（在时间窗口内计数）。
局部性判断：
- 比较访问CPU的节点与页面所在节点。
- 示例：页面A在节点1，频繁被节点0的CPU访问，表明存在远程访问。
热页面标记：
- 如果页面访问次数超过阈值（动态调整），标记为“热页面”。
- 文章中提到“热页面选择（Hot Page Selection）”依赖此步骤。

页面迁移：
- 条件：页面被频繁远程访问，且迁移成本可接受。
- 步骤：
  1. 在目标节点（例如节点0）分配新页面。
  2. 复制页面A的数据到新页面。
  3. 更新PTE，将虚拟地址映射到新物理地址。
- 异步执行：由内核线程（如kcompactd）完成，避免阻塞应用。
任务迁移：
- 如果页面迁移不可行（例如页面太大或迁移频繁），调度器可能将线程T1迁移到节点1。
- 示例：文章第3.4节建议避免跨socket访问CXL内存，可能通过任务迁移实现。
决策依据：迁移成本（带宽、CPU开销）与性能提升的权衡。

NUMA暗示错误的频率和行为可通过sysctl调整：

文章《Exploring Performance and Cost Optimization with ASIC-Based CXL Memory》多次提及NUMA暗示错误，尤其在CXL内存支持和性能优化中。

KeyDB实验：
- NUMA暗示错误帮助识别频繁访问的键，提升Hot-Promote配置性能至接近MMEM-only。
- 图5显示，尾延迟显著降低。
Spark SQL实验：
- TPC-H工作负载数据局部性低，NUMA暗示错误未能准确捕捉热页面。
- 结果：Hot-Promote性能下降34%，归因于页面抖动（thrashing）。