Impala性能调优最佳实践

Impala性能调优最佳实践概览

1选择合适的文件格式

通常对于大数据集而言(每个分区或者表的大小为几个G或者更大),推荐使用Parquet文件格式。因为它按列存储,单词IO可以请求更多的数据,另外它支持更好的压缩算法对二进制文件进行压缩。

对于小表而言(每个分区或者表的大小小于几个G或者更小),不同的存储格式之间没有明显的性能差别。在小数据量时,可以通过减少并行执行的机会(使用压缩文件格式),来减少的I / O。在规划生产部署或执行基准测试时,始终使用实际数据量来获得性能和扩展性的真实情况。

2避免数据处理过程中产生过多小文件

对于外部的存储数据,通常的格式为文本格式或者Avro格式,这样可以按照行来构建数据文件。一旦数据要加载到Impala的表中,可以将其转换为更高效的Parquet格式,并使用单个INSERT ... SELECT语句拆分为多个数据文件。

使用insert…select在表与表之间拷贝数据。避免对海量数据或者影响性能的关键表使用insert…values插入数据,因为每条这样的insert语句都会产生单个的小文件。

如果在数据处理过程中产生了上千个小文件,需要使用insert…select来讲数据复制到另外一张表,在复制的过程中也解决了小文件过多的问题。

3选择合适的分区粒度

分区是一种基于一个或多个列的值物理划分数据的技术,例如按年,月,日,地区,城市等。当查询指定了具体的分区列或者分区

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值