前言
前段时间,imppala资源告警,各种任务失败,查询堵塞,因此公司集群升级。
这次迁移的确必须,因为当时的集群规模很小,资源太紧张了。
迁移集群后,今天集群再次出问题,导致一个下午没什么事都没干,查了一下午的错误。
事件发展
1.阶段一:下午2点17分
数据组反映集群崩溃,HUE界面不能登录,登录之后刷不出来表,当然也不能提交数据。
查看各种log日志、任务信息,发现事件发生前后有两个现象:
- 有一个admin用户每隔一分钟提交一次insert任务,一次任务的数据量主要分两个个等级:500M、900M,他们分别需要30s和1分钟左右能完成操作。该用户每隔几次操作,会执行一次 invalidate metadata操作
- 数据分析的小伙伴提交了很多个重复的任务,比如
select *from tablename limit 100
,而且有几个我很佩服的十多行的sql(目前我是写不出来)。具体的情况就是,数据分析组的三个人同时对一张表执行各种不同复杂程度的select查询,因为反映慢了点,所以反复提交了很多次,包括hue和shell端。
初步分析1: 大量任务 + 反复提交复杂查询。单个原因基本不会造成性能瓶颈,极有可能是复合原因。
2.阶段二:下午3点1分
正在排查错误,还没完全定位。集群