Impala性能优化

Impala由于可以兼容部分hive sql语句,所以Impala的性能优化与hive的相差不多
1.sql语句优化:可以通过"explain sql"或“profile”命令来查看sql语句的执行顺序和步骤
2.选择合适的文件格式进行存储:文件格式的转换会缩小数据的大小,以减少磁盘IO和网络传送的IO。Impala对不同的数据格式有不同的支持。具体看下图
impala支持的文件类型、文件类型的压缩方式、不同类型可操作的范围
3.避免产生过多的小文件(如果有其他程序产生的小文件,可以使用中间表)。此举也是为了减少磁盘IO,优化效率。注:impala的“install into”单条插入语句会生成一个小文件
4.使用合适的分区技术,根据分区粒度测算。此点与hive相同,分区可以从全量IO变为分量IO。还可以减少“impalad”节点与下一个“impalad”之间的”shuffle”环节的IO,同分区的数据交给单个或多个“impalad”处理,处理后的数据也会流向相同的“impalad”节点。
5.使用“compute stats”进行表信息搜集
6.网络IO的优化:避免把整个数据发送到客户端,尽可能的做条件过滤,使用“limit”子句,输出文件时,避免使用美化输出

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值