一、背景
我写的Hbase大数据接口被几个业务方调用,但是我们没有APM系统,没有任何链路追踪,导致问题排查比较缓慢
二、问题
有一次看到后台日志hbase被疯狂调用,由于我最初设计的Rowkey很好,Hbase没有宕机,但是访问很不合理,如下图
凌晨我们是没有业务的,业务没有业务方调用,但是部署接口的服务器CPU飙升,持续到早上9点
三、解决
- 我查看了Hbase接口日志,发现有某辆车固定轮询调用,然后我为了快速恢复业务代码层屏蔽了这辆车,但是发现又有新的车出现了这种情况,这种屏蔽过滤指标不治本
- 然后我找运维团队查看Nginx有没有异常IP访问,因为调用我接口的业务方的服务会暴露在公网,果然追踪到了某个外地IP不间断调用服务,然后我让运维把这个IP禁掉解决了这个问题