oracle 老白,老白学编程 - Netdata学习 - numa

Numa 介绍

NUMA,即Non-Uniform Memory Access Architecture,非统一内存访问架构。

背景

传统的SMP中, 所有处理器共享系统总线,当cpu数目增大时, 系统总现竞争就相应增加,会成为系统的瓶颈,所以SMP系统的CPU数目一般只有数十个。

Numa物理内存管理

有两种类型计算机,分别以不同方式管理内存。

UMA(一致内存访问,unifurm memory access)将内存以连续方式组织起来(可能会有小缺口)。SMP系统中的每个cpu访问的内存区都有一样的。

NUMA(非一致内存访问,non-uniform memory access)是多处理器计算机,各个cpu都有本地的内存,支持快速的访问;各个处理器通过总线连接,用以支持其他cpu本地内存的访问,相比本地内存访问较慢。

41732238ef53f6df5cd168366bc430bf.png

节点

pg_data_t 用于表示节点的基本元素。

ccdd22f936a42cfb4d9d7fd6c1b90bb9.png

zone

每个节点的内存被分为多个块,称做zone。

ZONE_DMA, DMA内存域

ZONE_NORMAL , 可以直接映射到内核的普通内存域。

ZONE_HIGDMEM , 超出内核段的物理地址。

调度

在每个任务创建时都会赋予一个HOME结点(所谓HOME结点,就是该任务获得最初内存分配的结点),它是当时创建该任务时全系统负载最轻的结点,由于目前Linux中不支持任务的内存从一个结点迁移到另一个结点,因此在该任务的生命期内HOME结点保持不变。

一个任务最初的负载平衡工作(也就是选该任务的HOME结点)缺省情况下是由exec()系统调用完成的,也可以由fork()系统调用完成。在任务结构中的node_policy域决定了最初的负载平衡选择方式。

linux kernel 3.8支持page在numa node上迁移。3.8前,调度器对进程page 分配是无感知的,迁移进程是基于对进程cache hotness来预估的,因此在3.8前,若想获得尽可能好的性能,应使用taskset, cpuset等工具将进程pin到特定的核上(c++框架seastar正是这种策略避免迁移的同时也实现了share-nothing);

policy

memory policy指的是在NUMA系统下的内存分配到哪个node上的问题。一种memory policy由一个mode, 可选的mode flags,和可选的nodes组成。分配针对的对象可以是整个系统,可以是某个进程,可以是进程的某段内存区域

系统默认级别

将使用local allocations

任务/进程级别

如果没有被设置,回退到默认;如果被设置,可由fork, exec, clone继承。对于进程设定memory policy之前分配的任何pages在设定之后保持原样

VMA级别 未设定时,默认取基于进程的policy; 主要作用于annoymous mapping(stack,heap) 可在共享虚拟页面的任务上共享,比如线程 exec调用时不继承它,因为exec会丢弃父进程页面,重新创建 如果任务试图在此VMA的子块内再次安装VMA policy,内核会将它分裂成多个VMA 默认情况下,在安装此policy之前的page保持原样,除非mbind调用导致迁移

shared策略

作用于memory objects,与VMA策略类似,也有不同之处

分配模式

NODE LOCAL (系统默认)

在当前代码执行的地方分配内存

Interleave

第一页分配在node 0,下一页在node 1,再下一页node 0,如此轮换。适合被多个线程访问的数据

进程的Numa分配可通过/proc//numa_maps查看,单个node分配查看/sys/devices/system/node/node/meminfo。

进程会从父进程那继承分配策略,即默认的node local,且Linux 调度器会尽可能地在负载均衡的同时保持进程的cache不失效,也即尽可能让进程在靠近分配内存的node的CPU上运行。但,万一负载非常不均,调度器是会将进程迁移到其它numa node上的,这时的内存访问就变成了remote acess,性能会下降。kernel 3.8+支持将数据迁移到running node上。

参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值