[bigdata-004]CDH Impala的应用场景

最新推荐文章于 2023-04-30 23:00:00 发布

未济2019

最新推荐文章于 2023-04-30 23:00:00 发布

阅读量2.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhe_dashuju/article/details/53714935

版权

可以将Impala视为改进版的Hive。

两者都使用SQL语言，且Imapal的SQL是Hive SQL的子集。

Hive慢，Impala快，测试的结果是，常规问题上，Impala比Hive快十倍。有了Impala，Hive就可以不用了。

Impala没有索引。这是一个非常显著的特征，没有索引，就不能快速存取跟顺序有关的记录。Impala可以做排序，但没有对结果进行遍历，也不能快速seek到某条记录。

因此，Impala适应的场景是：

1. 操作非常大的数据，比如T和P级别的数据。

2. 操作对索引没有需求的数据。

它不适合操作数据量太小的数据，少于500M的数据，最好不要用它，跑不出优势。

如果遇到跟索引相关的问题，怎么处理？用sqoop把它转到mysql里解决。我的测试是，myslq对单表500万条记录操作流畅，性能令人满意。可以多台mysql集群同时处理。也可以一个一个处理。

Imapa不适合对外提供服务，在流程上，把结果处理好，放到关系库供前端调用。Impala只存取海量原始数据。

一定不要用Impala处理跟索引存取相关的计算，你挖空心思是能写出这样的代码，但速度会慢到令你震惊！！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[bigdata-004]CDH Impala的应用场景

可以将Impala视为改进版的Hive。两者都使用SQL语言，且Imapal的SQL是Hive SQL的子集。Hive慢，Impala快，测试的结果是，常规问题上，Impala比Hive快十倍。有了Impala，Hive就可以不用了。Impala没有索引。这是一个非常显著的特征，没有索引，就不能快速存取跟顺序有关的记录。Impala可以做排序，但没有对结果进行遍
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。