引言
闲鱼作为C2C电商交易平台,消息系统是导购链路上关键的一环。用户依赖聊天建立买家与卖家的信任,进一步获取商品信息。闲鱼消息的稳定性直接影响到闲鱼用户体验,成交效率。 为强化闲鱼消息系统的稳定性,保障用户体验。闲鱼消息团队在2022年8月份对消息系统稳定性进行了体系化治理。本文将从闲鱼消息团队视角出发,讲讲我们怎么做稳定性治理。
问题定义
我们的目标很明确:减少线上问题。 我们通过分析系统现状、回顾历史问题,将问题分为两类,一类是高风险高概率,需要重点突击解决的主要问题,包括变更风险、弱依赖风险。另一类是存在潜在风险,但治理成本高,需要长期投入建设的深水区问题,包括强依赖风险,系统设计。 我们针对问题,制定了对应的治理措施。包括:灰度、监控告警、自动化回归、强弱依赖治理、演练、重构等。因篇幅有限,本文将聚焦于主要问题的治理措施。
问题治理
灰度
安全生产环境是由集团层面为保障线上稳定性的灰度流量生产环境。通过接入层网关的流量控制为环境提供1%线上流量+100%办公网流量,还原线上环境为系统验证提供场所。