现在想想connect超时引起的问题,已过去半年了。
今天查阅资料,不由自主的想了起来。
当时随着用户数目的增加,自己的项目中问题很多,大家都在不停的解决。却又遇上了西安机房和天津机房操作的网络震荡。
雪上加霜,服务器的连接周期性中断。一开始,大家的初步判断是,在系统中出现了读写锁竞争,几个人就对相关的代码重新检查,未发现问题。
重新对日志分析,发现出现这个情况比较有规律,就是在服务器连接过程中,connect日志打印出来,但connect是否成功后的日志,却在9分钟之后进行显示。
根据症状,求助google,终于查到了偏相关文章。主要内容是说:
使用TEMP_FAILURE_RETRY(::connect()), 由于网络的原因,造成超时时间达到9分多钟。
与我们观察到情况相同, 太兴奋了。
先通过修改tcp_syn_retries 值为1,先缓解系统的糟糕状况。
再跟相关的人进行讨论,对系统的网络底层进行了修改,问题得以解决。
这个网络底层,大规模使用5年以上了,也曾负载过200多W的用户。没想到问题仍然出现了。
感觉写一套网络的网络底层系统真的不容易。
当时CTO 也亲自修改,并加以指导。 真的比较感谢哦。