impala使用及调优

最新推荐文章于 2023-07-05 14:09:57 发布

素黑明

最新推荐文章于 2023-07-05 14:09:57 发布

阅读量1.7k

点赞数 2

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010019721/article/details/95902546

版权

Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。

Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询。

在impala中一条SQL语句先后经历BeeswaxService.Query->TClientRequest->TExecRequest，最后把TExecRequest交由impala-coordinator分发给多个backend处理。

查询语句：

show table status students;

describe students;

impala优化：

>explain sql; #查看执行计划

>profile; #输出底层信息计划

>summary;#查看查询时间及占用内存

注意项：

1）Join的时候大表一定要放在左边,因为impala在广播右侧表，所以右侧表会复制到需要右侧表进行联接的所有节点。

2）广播连接(Broadcast joins) 是默认方式，右侧的表被认为比左侧的表小，并且它的内容被发送到查询涉及到的其他节点上。替代的技术称作分割连接(partitioned join) (与分区表无关)，更适用于近乎相同大小的大型表的连接。使用这一技术，每一个表的部分内容被发送到对应的其他节点，然后这些行的子集可以并行处理。广播和分区连接的选择仍然依赖于连接中所有表的可用的

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。