最近遇到一个情况,当网络出现问题的时候,上层应用会出现死循环的特征。
普遍的一个情况是,可以说网络问题在生产环境里是必然出现的情况,所以上层要具有这个容错的机制,容忍这种情况的发生。这次就是没有容错好,进入了死循环。
当前这个问题是上层使用了Linux的epoll机制,而且没有设置EPOLLET标记(edge triger边缘触发),也就是说使用了默认的LT(level triger水平触发)。
但是应用在处理的时候忽略了这个EPOLLERR错误,因为没有及时处理,也就是这个错误事件一直存在,会不停的触发,也就代表这个socket一直有事件需要处理,就这样上层应用就平稳的进入到了死循环里。
所以在使用epoll的时候需要特别小心这种情况的发生。
参考
https://mzhan017.blog.csdn.net/article/details/116930885