最近公司在用impala,也读了贾传青的《impala实战》,总结下impala
1.最大的优点,cdh中和hive共用元数据,但是sql查询速度比hive处理快很多,目测最
少能节省一半的查询速度
2.没有使用MapReduce进行并行计算,中间结果不存入硬盘,impala更注重内存和网络IO的利用
3.缺点可能是需要注意机器的内存资源
4.要想查的快也需要分区,一般用常用字段进行分区,如年月日等,但要注意分区不能太多。
分区适应以下场合
4.1表数据量特别大,不能忍受读整个表
4.2总按照特定列进行查询
4.3分区列有一定的区分度
4.4数据经过ETL处理
5.文件格式
1.最大的优点,cdh中和hive共用元数据,但是sql查询速度比hive处理快很多,目测最
少能节省一半的查询速度
2.没有使用MapReduce进行并行计算,中间结果不存入硬盘,impala更注重内存和网络IO的利用
3.缺点可能是需要注意机器的内存资源
4.要想查的快也需要分区,一般用常用字段进行分区,如年月日等,但要注意分区不能太多。
分区适应以下场合
4.1表数据量特别大,不能忍受读整个表
4.2总按照特定列进行查询
4.3分区列有一定的区分度
4.4数据经过ETL处理
5.文件格式
5.1text---lzo 直观、占用硬盘
5.2parquet---snappy(默认,压缩速度快).gzip(压缩比高)
5.3avro5.4rcfile
5.5sequenceFile
5.6hbase外表