Impala实践之五:一次系统任务堵塞记录 + 思考

本文记录了一次Impala集群因任务堵塞导致系统瘫痪的事件,详细描述了事件的发展过程,包括用户大量操作、复杂查询反复提交等可能导致的问题。总结指出,元数据管理、权限控制和集群负载均衡是当前系统需要改进的关键点。
摘要由CSDN通过智能技术生成

前言

前段时间,imppala资源告警,各种任务失败,查询堵塞,因此公司集群升级。

这次迁移的确必须,因为当时的集群规模很小,资源太紧张了。

迁移集群后,今天集群再次出问题,导致一个下午没什么事都没干,查了一下午的错误。

事件发展

1.阶段一:下午2点17分

数据组反映集群崩溃,HUE界面不能登录,登录之后刷不出来表,当然也不能提交数据。

查看各种log日志、任务信息,发现事件发生前后有两个现象:

  • 有一个admin用户每隔一分钟提交一次insert任务,一次任务的数据量主要分两个个等级:500M、900M,他们分别需要30s和1分钟左右能完成操作。该用户每隔几次操作,会执行一次 invalidate metadata操作
  • 数据分析的小伙伴提交了很多个重复的任务,比如select *from tablename limit 100,而且有几个我很佩服的十多行的sql(目前我是写不出来)。具体的情况就是,数据分析组的三个人同时对一张表执行各种不同复杂程度的select查询,因为反映慢了点,所以反复提交了很多次,包括hue和shell端。

初步分析1: 大量任务 + 反复提交复杂查询。单个原因基本不会造成性能瓶颈,极有可能是复合原因。

2.阶段二:下午3点1分

正在排查错误,还没完全定位。集群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值