背景
该问题来自于在给客户部署 MySQL 前进行服务器环境配置时,涉及到服务器配置项关闭 numa,客户对此配置项的必要性产生了疑虑。针对这一疑虑,进行了以下关于 numa 的研究。
一、NUMA 简介
NUMA(Non-Uniform Memory Access,非一致性内存访问) NUMA 服务器的基本特征是 Linux 将系统的硬件资源划分为多个软件抽象,称为节点(Node),每个节点上有单独的 CPU、内存和 I/O 槽口等。CPU 访问自身 Node 内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致内存访问 NUMA 的由来。
二、NUMA 与 MySQL 分析
NUMA 的 4 种内存分配策略:
• 缺省(default):总是在本地节点分配(当前进程运行的节点上)
-
• 绑定(bind):强制分配到指定节点上
-
• 交叉(interleavel):在所有节点或者指定节点上交叉分配内存
-
• 优先(preferred):在指定节点上分配,失败则在其他节点上分配
NUMA 的内存分配策略对于进程来说,并不是乐观的。因为 NUMA 默认是使用 CPU 亲和的内存分配策略,即请求进程会从当前所处的 CPU 的 Node 请求分配内存。当某个需要消耗大量内存的进程耗尽了所处的 Node 的内存时,就会导致产生 swap,不会从远程 Node 分配内存,这就是 swap insanity 现象。
MySQL 数据库是单进程多线程的架构,在开启的 NUMA 服务器中,内存被分配到各 NUMA Node 上,而 MySQL 进程只能消耗所在节点的内存。所以在开启 NUMA 的服务器上,某些特殊场景中容易出现系统拥有空闲内存但发生 SWAP 导致性能问题的情况。
比如专用的 MySQL 单实例服务器,物理内存为 40GB,MySQL 进程所在节点的本地内存为 20G,而 MySQL 配置 30GB 内存,超出节点本地内存部分会被 SWAP 到磁盘上,而不是使用其他节点的物理内存,引发性能问题。
三、如何关闭 NUMA
1. 硬件层,在 BIOS 中设置关闭;
2. OS 内核层,在 Linux Kernel 启动参数中加上 numa=off 后重启服务器;
For RHEL 6:
编辑 /boot/grub/grub.conf 文件的 kernel 行(添加 numa=off):
# vi /boot/grub/grub.conf
kernel /vmlinuz-2.6.39-400.215.10.EL ro root=/dev/VolGroup00/LogVol00 numa=off
For RHEL 7:
编辑 /etc/default/grub 文件的 kernel 行
# vi /etc/default/grub
GRUB_CMDLINE_LINUX="rd.lvm.lv=rhel_vm-210/root rd.lvm.lv=rhel_vm-210/swap vconsole.font=latarcyrheb-sun16 crashkernel=auto vconsole.keymap=us rhgb quiet numa=off
RHEL7/CentOS7 必须要重建 GRUB 配置文件才能生效:
# grub2-mkconfig -o /etc/grub2.cfg
3. 数据库层,在 mysqld_safe 脚本中加上 “numactl –interleave all” 来启动 mysqld。
# numactl --interleave=all ./bin/mysqld_safe --defaults-file=/etc/my.cnf &
四、innodb_numa_interleave 参数
MySQL 在 5.6.27、 5.7.9 引入了 innodb_numa_interleave 参数,MySQL 自身解决了内存分类策略的问题,需要服务器支持 numa。
根据官方文档的描述:
当启用 innodb_numa_interleave 时,mysqld 进程的 NUMA 内存策略被设置为 MPOL_INTERLEAVE;InnoDB 缓冲池分配完毕后,NUMA 内存策略又被设置为 MPOL_DEFAULT。当然 innodb_numa_interleave 参数生效,MySQL 必须是在启用 NUMA 的 Linux 系统上编译安装。从 MySQL 5.7.17 开始,CMake 编译软件新增了 WITH_NUMA 参数,可以在支持 NUMA 的 Linux 系统上编译 MySQL。需要注意 innodb_numa_interleave 参数在 MySQL5.7.17 的二进制包中是不支持的。
经过测试:
1.系统若不支持 numa,-DWITH_NUMA=ON 会导致 CMake 编译失败;
2.MySQL5.7.19+ 的免编译的二进制包开始支持 innodb_numa_interleave 参数。
innodb_numa_interleave参数的作用
innodb_numa_interleave参数用于设置InnoDB存储引擎在NUMA架构的服务器上如何分配内存。当该参数设置为ON时,InnoDB将尽量保证内存分配在不同的NUMA节点上,以达到最佳性能;当该参数设置为OFF时,InnoDB则会将所有的内存都分配在单个NUMA节点上。
使用场景
场景1:多NUMA节点服务器
当使用多个NUMA节点的服务器时,可以通过启用innodb_numa_interleave参数来提高数据库的性能。在这种情况下,InnoDB会尝试将内存块分配到不同的NUMA节点上,以平衡负载并减少内存访问延迟。
场景2:单NUMA节点服务器
在使用单个NUMA节点的服务器时,如果启用了innodb_numa_interleave参数,InnoDB会将所有的内存块分配到该节点上。这样做可以避免NUMA节点间的内存访问延迟,从而提高性能。
场景3:禁用NUMA插入
如果你不希望使用NUMA插入,可以将innodb_numa_interleave参数设置为OFF。这通常在使用虚拟机等特殊环境时会用到。
四 、关于 NUMA 的小建议
若是专用的 MySQL 服务器,可以关闭直接在 BIOS 层或者 OS 内核层关闭 NUMA;
若希望其他进程使用 NUMA 特性,可以选择合适的 MySQL 版本开启 innodb_numa_interleave 参数。
关于 NUMA 的小误区:
numactl 命令未找到,numa 就是未开启吗?
不是,numactl 是 Linux 提供的一个对 NUMA 进行手工调优的命令(默认不安装),可以用 numactl 命令查看系统的 NUMA 状态和对 NUMA 进行控制。
参考资料:
"The MySQL “swap insanity” problem and the effects of the NUMA architecture":
https://blog.jcole.us/2010/09/28/mysql-swap-insanity-and-the-numa-architect
"A brief update on NUMA and MySQL": https://blog.jcole.us/2012/04/16/a-brief-update-on-numa-and-mysql/
https://www.kernel.org/doc/html/v4.18/vm/numa.html
http://mysql.taobao.org/monthly/2015/07/06/
https://www.thegeekdiary.com/how-to-disable-numa-in-centos-rhel-67/