什么是“Accept惊群”?简单说来,多线程/多进程等待同一个socket事件,当connect事件发生时,这些
线程/进程被同时唤醒,就是惊群。
这样效率很低,许多进程被内核重新调度唤醒,同时去响应这一个事件,当然只有一个进程能处理事件成功,其他的进程在处理该事件失败后重新休眠。这种 性能浪费现象就是惊群。
惊群通常发生在server上,当父进程绑定一个端口监听socket,然后fork出多个子进程,子进程们开始循环处理(比如accept)这个socket。每当用户发起一个TCP连接时,多个子进程同时被唤醒,然后其中一个子进程accept新连接成功,其他失败,重新休眠。
其实,在linux2.6内核上,accept系统调用已经不存在惊群了。可以写个简单的程序试下,在父进程中bind,listen,然后fork出子进程,所有的子进程都accept这个监听句柄。这样,当新连接过来时,大家会发现,仅有一个子进程返回新建的连接,其他子进程继续休眠在accept调用上,没有被唤醒。
【重要】:accept惊群是一个古老的问题,Linux从2.2.9的内核起,已经“修复”了这个问题,即内核保证只唤醒一个进程,而且内核的唤醒策略在多个等待进程的情况下保证均匀。(测试发现不是很均匀)
epoll,select,poll等syscall如果在多个进程中监听相同的socket,会有惊群效应,需要加锁保护。
epoll_wait好像内部是领导者追随者模式,新版本不会有惊群问题,进程激活分配不均匀。
# uname -a
Linux PLATDEV 2.6.16.46-0.12-xenpae-1024-18 #31 SMP Wed Oct 24 21:10:58 CST 2007 i686 i686 i386 GNU/Linux
Server listen后 主进程fork3个子进程,4个进程都在无限循环阻塞accept,
Client 循环5000次 connect, 测试结果如下:
没有发现惊群现象,无accept失败的情况,但是各个进程负载的connect事件个数不是很平均。
complete to child accept1 --- 1452
complete to child accept2 --- 1075
complete to child accept3 --- 1314
这样效率很低,许多进程被内核重新调度唤醒,同时去响应这一个事件,当然只有一个进程能处理事件成功,其他的进程在处理该事件失败后重新休眠。这种 性能浪费现象就是惊群。
惊群通常发生在server上,当父进程绑定一个端口监听socket,然后fork出多个子进程,子进程们开始循环处理(比如accept)这个socket。每当用户发起一个TCP连接时,多个子进程同时被唤醒,然后其中一个子进程accept新连接成功,其他失败,重新休眠。
其实,在linux2.6内核上,accept系统调用已经不存在惊群了。可以写个简单的程序试下,在父进程中bind,listen,然后fork出子进程,所有的子进程都accept这个监听句柄。这样,当新连接过来时,大家会发现,仅有一个子进程返回新建的连接,其他子进程继续休眠在accept调用上,没有被唤醒。
【重要】:accept惊群是一个古老的问题,Linux从2.2.9的内核起,已经“修复”了这个问题,即内核保证只唤醒一个进程,而且内核的唤醒策略在多个等待进程的情况下保证均匀。(测试发现不是很均匀)
epoll,select,poll等syscall如果在多个进程中监听相同的socket,会有惊群效应,需要加锁保护。
epoll_wait好像内部是领导者追随者模式,新版本不会有惊群问题,进程激活分配不均匀。
# uname -a
Linux PLATDEV 2.6.16.46-0.12-xenpae-1024-18 #31 SMP Wed Oct 24 21:10:58 CST 2007 i686 i686 i386 GNU/Linux
Server listen后 主进程fork3个子进程,4个进程都在无限循环阻塞accept,
Client 循环5000次 connect, 测试结果如下:
没有发现惊群现象,无accept失败的情况,但是各个进程负载的connect事件个数不是很平均。
complete to child accept1 --- 1452
complete to child accept2 --- 1075
complete to child accept3 --- 1314
complete to father accept --- 1159