hadoop-Impala 5.7性能优化系列-10大优化思路

DBApower

于 2016-12-01 20:19:56 发布

阅读量1.6k

点赞数 2

分类专栏： hadoop impala linux 文章标签： hadoop impala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/seeyouc/article/details/53420601

版权

hadoop 同时被 3 个专栏收录

11 篇文章 1 订阅

订阅专栏

9 篇文章 4 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

1.1.1 Impala 5.7-10大优化思路

Impala中，提供了10大类优化思路和方法

1) 分区

2) 连接查询性能考虑

3) 表和列信息统计

4) Impala性能测试：

5) 基准Impala查询：

6) 控制Impala的资源使用情况：

7) 使用Impala查询Amazon S3的文件系统。

8) HDFS缓存

9) 执行计划和查询概况

10) 数据块倾斜

表分区：基于不同列值进行查询，避免大量无效信息过滤，和常规数据库分区理念一致。

连接查询性能考虑：连接查询的主要类，你可以在SQL级，相对于变化的物理因素如文件格式或硬件配置。有关列统计和表统计的概述的相关主题也很重要，主要用于连接性能。

表和列信息统计：概要表统计和列统计的概述。收集表和列的统计，计算统计报表，帮助impala自动优化性能的查询，而不需要更改SQL查询语句。（这个过程是在impala1.2.2高，大大简化了计算统计表因为聚集在一个操作，这两种类型的统计，不需要任何的安装和配置进行必要的分析表的语句在hive。）

Impala性能测试：做一些安装后的测试以确保Impala使用最优设置的性能基准测试之前，进行任何。

基准Impala查询：配置和样本数据，您使用的Impala最初的实验和测试数据往往是不适合做性能测试。

控制Impala的资源使用情况：越多的Impala内存可以利用，你可以期待更好的查询性能。但在集群中运行的其他工作一样，你必须权衡确保Hadoop所有组件有足够的内存来执行的前提下，你可能使用盖的内存，Impala可以使用，不能不能够此时彼。

使用Impala查询Amazon S3的文件系统。对存储在亚马逊文件系统（S3）和数据存储在HDFS有不同的的数据查询性能对比。

下篇：impala优化10指导原则和最佳实践，敬请关注！

在impala的官方文档中居然出现了十大优化思路和10大指导原则及最佳实践，貌似冲突，实则是一致的，一个侧重思路逻辑表达，一个侧重具体实践，在下一篇中将有详细的每个技术要点和原则指导及最佳实践案例，欢迎关注。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。