Linux可以跟踪CPU和应用程序的内存使用,并会尝试安排进程在拥有比其所需内存更大的CPU上运行,以提高性能。所有这一切对用户和系统管理员都是不可见的,事实上,大多数工程师甚至从来没有听说过这种技术,即使所有新服务器无时无刻不在使用。
那么,问题是什么呢?交换。多年来,不少系统管理员都曾提交过关于交换的问题报告,尤其是在运行着消耗大量内存程序的服务器上(例如数据库和Java)。最近的讨论和工具表明,NUMA是导致问题的主要原因。为什么呢?因为新创建的进程默认将分配单个CPU上的所有或绝大部分内存,然后使用其它CPU的部分内存。在一台16G、每个CPU分配8GB的服务器上运行一个需要12GB内存的MySQL进程,我们会发现MySQL使用了第一个CPU所有的8GB内存以及另外一个CPU上的4GB内存。
为什么这会成为一个问题呢?因为内核也需要内存,而NUMA系统的内存分配并不均衡,尤其是当一个CPU的内存被完全占用的时候。这种情况之下,它会交换出第一个CPU上的部分内存,即便另外的CPU可能仍然有很多内存空闲。很明显,交换是我们应当竭力避免的,这可能导致交换期间整个数据库的操作被阻塞,进而影响整个网站。
如何解决这个问题呢?现在而言,唯一的办法就是通过“numactl”命令以interleaved模式来启动占用大内存的进程。这将使得CPU间的内存得以平均分配,从而避免问题的发生,尽管由于在不同CPU间进行内存访问,在理论上系统可能会变慢一些,但这仍不失为一个好方法。当然这也有些恼人,因为你每次启动进程的时候都必须使用numactl命令,意味着可能需要修改init脚本或相应的启动命令(确保软件包numactl已安装)
Linux真正需要是一个默认的NUMA策略。当前已经存在成熟的内存策略,用于控制内存的使用、绑定等等,但这些策略在进程之间是彼此孤立的,我们没有办法设置一个默认值。内核应当有一个对应的sysctl选项,来允许系统管理员为一些应用(占用大量内存的)设置默认的内存策略。不过要彻底避免不必要的交换及相关问题,则仍有很长的一段路要走,目前我们仍需要通过numactl命令来以interleaved模式运行相关程序。