Impala实践之五：一次系统任务堵塞记录 + 思考

最新推荐文章于 2022-08-27 17:13:05 发布

木东居士

最新推荐文章于 2022-08-27 17:13:05 发布

阅读量4.1k

点赞数

分类专栏： Impala实践文章标签： impala 集群数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/52210302

版权

本文记录了一次Impala集群因任务堵塞导致系统瘫痪的事件，详细描述了事件的发展过程，包括用户大量操作、复杂查询反复提交等可能导致的问题。总结指出，元数据管理、权限控制和集群负载均衡是当前系统需要改进的关键点。

摘要由CSDN通过智能技术生成

前言

前段时间，imppala资源告警，各种任务失败，查询堵塞，因此公司集群升级。

这次迁移的确必须，因为当时的集群规模很小，资源太紧张了。

迁移集群后，今天集群再次出问题，导致一个下午没什么事都没干，查了一下午的错误。

事件发展

1.阶段一：下午2点17分

数据组反映集群崩溃，HUE界面不能登录，登录之后刷不出来表，当然也不能提交数据。

查看各种log日志、任务信息，发现事件发生前后有两个现象：

有一个admin用户每隔一分钟提交一次insert任务，一次任务的数据量主要分两个个等级：500M、900M，他们分别需要30s和1分钟左右能完成操作。该用户每隔几次操作，会执行一次 invalidate metadata操作
数据分析的小伙伴提交了很多个重复的任务，比如select *from tablename limit 100,而且有几个我很佩服的十多行的sql（目前我是写不出来）。具体的情况就是，数据分析组的三个人同时对一张表执行各种不同复杂程度的select查询，因为反映慢了点，所以反复提交了很多次，包括hue和shell端。

初步分析1： 大量任务 + 反复提交复杂查询。单个原因基本不会造成性能瓶颈，极有可能是复合原因。

2.阶段二：下午3点1分

正在排查错误，还没完全定位。集群

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。