最近公司系统改造,可想会遇到很多坑。其中一些接口bug修复交给新来的同事fix,他测试之后说是没问题我就相信了,结果部署到生产环境数据添加一直失败引起生产事故。同事说接口测试一直没响应,数据库中也存在A服务新增的数据,就想当然的认为接口没问题,也是我太相信了?
公司平台采用Spring-Cloud微服务开发,拆分成5个微服务,服务之间会相互调用,A服务新增操作添加了事务,新增数据成功(此时未提交到数据库)后调用B服务初始化数据,在访问B服务时先验证token合法性并切换数据源,切换数据源前会查询A服务新增的数据是否存在,此时是查询不到A服务中未提交的数据。
思考:客户调用A服务因为我们上线bug引起的新增数据失败,考虑暂时服务动态降级或者动态关闭服务将客户请求数据消息队列暂存,待修复重新发版后消费消息队列中的数据执行补偿机制重新执行新增操作,避免客户端重新发起请求。放入消费消息队列中的数据要考虑重复请求或者恶意请求,避免相同数据重复放入引起消息队列过大。