背景
服务通过kubernetes上线之后,每次进行升级时,升级过程中总有一段时间(我们的服务宕机时间约为一分钟)内服务访问异常。
原因分析
经过分析确定,我们服务的从开始到最终启动成功约需要一分钟,服务的升级采用的时滚动升级,具体策略如下:
type: RollingUpdate
rollingUpdate:
maxSurge: 1
maxUnavailable: 0
通过以上策略进行服务升级时,会先启动新的pod,待新的pod启动成功之后,然后删除原有的pod。我们不难发现这儿存在这以下问题
- 新的pod启动成功时,开始停止旧的pod,新的pod启动成功,也就是我们看到的running状态,并不以为着我们的服务是正常的。这个时候如果杀死旧的pod,由新的pod开始接受请求显然会出现宕机情况,所以需要增加探针确保新的pod内部我