《impala实战》读书笔记

最新推荐文章于 2024-08-09 01:20:36 发布

liuwei063608

最新推荐文章于 2024-08-09 01:20:36 发布

阅读量433

点赞数 1

分类专栏：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuwei063608/article/details/65442991

版权

数据库专栏收录该内容

5 篇文章 0 订阅

订阅专栏

最近公司在用impala，也读了贾传青的《impala实战》，总结下impala
1.最大的优点，cdh中和hive共用元数据，但是sql查询速度比hive处理快很多，目测最
少能节省一半的查询速度
2.没有使用MapReduce进行并行计算，中间结果不存入硬盘，impala更注重内存和网络IO的利用
3.缺点可能是需要注意机器的内存资源
4.要想查的快也需要分区，一般用常用字段进行分区，如年月日等，但要注意分区不能太多。
分区适应以下场合
4.1表数据量特别大，不能忍受读整个表
4.2总按照特定列进行查询
4.3分区列有一定的区分度
4.4数据经过ETL处理
5.文件格式

5.1text---lzo 直观、占用硬盘

5.2parquet---snappy(默认，压缩速度快).gzip（压缩比高）

5.3avro

5.4rcfile

5.5sequenceFile

5.6hbase外表

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。