如果一条写入到topic的消息同时包含key value,且使用默认的分区器,那么kafka会对key进行hash,然后根据散列值把消息映射到特定的分区,同一个key总是会被写入相同的分区。
现网收到kafka主机磁盘空间不足的告警,登录主机df -h检查发现10块磁盘大部分使用率都在50%以下,只有一块磁盘使用率超过80%,相差一倍有余,怀疑是特定消息写入频繁,使用kafdrop的view message功能查看,发现10条有效消息里面有7条key是一样的,随机又查询100条,发现同一个key占6、7十条,与猜测吻合。
由于该topic是用于redis集群之间数据同步使用,去redis集群中查询该key,对其所在节点进行monitor抓取现网实时请求10秒钟进行分析,发现对该key的调用与其他key相差两个数量级,典型的热点key,提交key value到应用侧同事分析,发现该key为某搜索功能特定关键字的兜底缓存key,应用侧查询报表发现搜索量达到100tps,确认为异常。随后应用侧同事新版本做了优化,同个key一小时内只更新一次,避免恶意刷量。