我观察到,当linux futexes竞争时,系统花费了很多时间在自旋锁中。我注意到即使不直接使用futexes也是一个问题,而且在调用malloc/free,rand,glib mutex调用以及调用futex的其他系统/库调用时也会出现问题。有没有ANY摆脱这种行为的方法?竞争futex时高系统CPU使用率
我正在使用内核2.6.32-279.9.1.el6.x86_64的CentOS 6.3。我也尝试了从kernel.org直接下载的最新的稳定内核3.6.6。
本来,问题发生在一台配备16GB RAM的24核心服务器上。该进程有700个线程。使用“perf记录”收集的数据显示自旋锁是从__lll_lock_wait_private和__lll_unlock_wake_private调用的futex中调用的,正在占用50%的CPU时间。当我用gdb停止进程时,回溯显示调用__lll_lock_wait_private __lll_unlock_wake_private是由malloc和free创建的。
我试图减少这个问题,所以我写了一个简单的程序,显示它确实是导致螺旋锁问题的futexes。
启动8个线程,每个线程执行以下操作:
//...
static GMutex *lMethodMutex = g_mutex_new();
while (true)
{
static guint64 i = 0;
g_mutex_lock (lMethodMutex);
// Perform any operation in the user space that needs to be protected.
// The operation itself is not important. It's the taking and releasing
// of the mutex that matters.
++i;
g_mutex_unlock (lMethodMutex);
}
//...
我是一个8核的机器上运行这个,用大量的RAM。
使用“顶部”,我发现机器空闲10%,用户模式下10%,系统模式下90%。
使用“PERF顶部”,我观察到以下:
50.73% [kernel] [k] _spin_lock
11.13% [kernel] [k] hpet_msi_next_event
2.98% libpthread-2.12.so [.] pthread_mutex_lock
2.90% libpthread-2.12.so [.] pthread_mutex_unlock
1.94% libpthread-2.12.so [.] __lll_lock_wait
1.59% [kernel] [k] futex_wake
1.43% [kernel] [k] __audit_syscall_exit
1.38% [kernel] [k] copy_user_generic_string
1.35% [kernel] [k] system_call
1.07% [kernel] [k] schedule
0.99% [kernel] [k] hash_futex
我希望这段代码花费一些时间在自旋锁,因为futex的代码必须获得futex的等待队列。我也希望代码在系统中花费一些时间,因为在这段代码中,用户空间中运行的代码非常少。然而,花费在自旋锁上的时间有50%似乎过多,特别是当这个CPU时间需要做其他有用的工作时。
+1
您可能想谈谈您希望看到的行为。我觉得这并不完全清楚。 –
+0
使用互斥锁或futex来同时增加变量(如上例所示)有点愚蠢,因为这可以直接使用原子增量(效率高出50至500倍)完成。在“真实”代码中,即实际上做了某些事情的代码,我发现拥挤和浪费的时间浪费在旋转而非可忽略的细节上。实时代码不会同时争夺六个线程的锁定。 –
+1
最初,我注意到这是一个问题,即使futexes不是直接从用户代码调用;调用malloc/free,rand,glib mutex调用以及调用futex的其他系统/库调用时会发生这种情况。问题描述中给出的代码片段仅仅是为了展示问题的发生,而绝不代表任何有用的工作。实际上,互斥调用之间的代码可以是任何用户代码。 –