《impala实战》读书笔记

最近公司在用impala,也读了贾传青的《impala实战》,总结下impala
1.最大的优点,cdh中和hive共用元数据,但是sql查询速度比hive处理快很多,目测最
少能节省一半的查询速度
2.没有使用MapReduce进行并行计算,中间结果不存入硬盘,impala更注重内存和网络IO的利用
3.缺点可能是需要注意机器的内存资源
4.要想查的快也需要分区,一般用常用字段进行分区,如年月日等,但要注意分区不能太多。
分区适应以下场合
4.1表数据量特别大,不能忍受读整个表
4.2总按照特定列进行查询
4.3分区列有一定的区分度
4.4数据经过ETL处理
5.文件格式

5.1text---lzo 直观、占用硬盘

5.2parquet---snappy(默认,压缩速度快).gzip(压缩比高)

5.3avro

5.4rcfile

5.5sequenceFile

5.6hbase外表


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值