hadoop-Impala 5.7性能优化系列-10大优化思路

9 篇文章 4 订阅
6 篇文章 0 订阅

1.1.1  Impala 5.7-10大优化思路

Impala中,提供了10大类优化思路和方法

1)       分区

2)       连接查询性能考虑

3)       表和列信息统计

4)       Impala性能测试:

5)       基准Impala查询:

6)       控制Impala的资源使用情况:

7)      使用Impala查询Amazon S3的文件系统。

8)       HDFS缓存

9)       执行计划和查询概况

10)    数据块倾斜

 

表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。

连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有关列统计和表统计的概述的相关主题也很重要,主要用于连接性能。

表和列信息统计:概要表统计和列统计的概述。收集表和列的统计,计算统计报表,帮助impala自动优化性能的查询,而不需要更改SQL查询语句。(这个过程是在impala1.2.2高,大大简化了计算统计表因为聚集在一个操作,这两种类型的统计,不需要任何的安装和配置进行必要的分析表的语句在hive。)

Impala性能测试:做一些安装后的测试以确保Impala使用最优设置的性能基准测试之前,进行任何。

基准Impala查询:配置和样本数据,您使用的Impala最初的实验和测试数据往往是不适合做性能测试。

控制Impala的资源使用情况:越多的Impala内存可以利用,你可以期待更好的查询性能。但在集群中运行的其他工作一样,你必须权衡确保Hadoop所有组件有足够的内存来执行的前提下,你可能使用盖的内存,Impala可以使用,不能不能够此时彼。

使用Impala查询Amazon S3的文件系统。对存储在亚马逊文件系统(S3)和数据存储在HDFS有不同的的数据查询性能对比。


下篇:impala优化10指导原则和最佳实践,敬请关注!

             在impala的官方文档中居然出现了十大优化思路和10大指导原则及最佳实践,貌似冲突,实则是一致的,一个侧重思路逻辑表达,一个侧重具体实践,在下一篇中将有详细的每个技术要点和原则指导及最佳实践案例,欢迎关注。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值