遇到一个神秘的问题:客户端不断的在重连服务。
零、背景
多年前的时候,我曾提起过我名下挂了一个2013年的中转服务,这个服务多年来一直在线上裸奔,没人动过。
当时在《历史悠久的微博中转》这篇文章里分享了这个中转服务的架构设计。
后来还在《记一次微博中转异常》文章里分享了遇到的一个问题。
这不,最近又遇到问题了。
一、流量不均衡
元旦晚会前几天,大家都在准备服务扩容的事情。
运维问我中转还能扩容吗?
我回答国庆的时候已经尽最大可能扩容了,之后再扩整个服务就起不来了,应该到达系统架构上限了。
我也曾在内心自问:具体架构的哪里到达上限呢?
自己回答:还没细看代码,不是很清楚。
然后又进行合理推理:宏观上看架构是可以无限扩容的,应该是微观上某个地方遇到类似于千年虫的问题了。
而元旦前夕,突然收到最大值告警。
一看流量,访问量翻了好几倍,部分机器网卡跑的很高。
看下机型配置,都是8核、16G内存、1G流量。
竟然单机 qps 高达 18~20W/s,流量几乎跑满。