本文主要整理一下 Impala 每个版本的新特性,方便了解 Impala 做了哪些改进、修复了哪些 bug。
Impala 目前最新版本为 1.4.0,其下载地址为:http://archive.cloudera.com/impala/redhat/6/x86_64/impala/
不得不说的事情:
- 1.3.1 用于 CDH4
- 1.4.0 用于 CDH5
1.4.0
- CDH5 中增加 DECIMAL 数据类型,可以设置精度,其语法为:
- CDH5 中,impala 可以使用 HDFS 缓存特性加快频繁访问的数据的速度,减少 cpu 使用率。当数据缓存到 hdfs cache 中时,impala 可以直接从缓存中读取数据而不需要读磁盘并且减少额外的内存拷贝。
- Centralized Cache Management in HDFS
- impala 中使用 HDFS Caching,参考 sing HDFS Caching with Impala (CDH 5 Only)
- Impala 可以使用基于 Sentry 的授权策略,详细说明可以参考:Enabling Sentry Authorization for Impala
- Impala 支持其他 hadoop 组件创建的 Parquet 格式的文件,你可以在建表语句中指定 Parquet 格式,Impala 中创建 parquet 格式的表,请参考:Using the Parquet File Format with Impala Tables
- ORDER BY 查询不再要求一个 limit 语句,如果需要排序的结果集的大小超过了内存限制,则会使用临时的磁盘空间用于排序,ORDER BY 语法为:ORDER BY Clause ,详细说明见:
- LDAP 连接可以使用 SSL 或者 TLS 加密,详细说明参考:Enabling LDAP Authentication for Impala
- 增加以下内建函数:
- Date and Time Functions ,用于从一个 TIMESTAMP 字段返回一个 date 或者 time 的字段,详细说明参考:
- Date and Time Functions ,用于将一个 date/time 类型的字段裁剪为一个特定格式的值,如年、月、日、小时等等,详细说明参考:
- Mathematical Functions ,对 DECIMAL 类型的值四舍五入,详细说明参考:
- 和 , , Functions , , Functions
- 、 等,用于判断数组是否超过最大值和最小值。
- 和 ,用于判断是否为数值。
- SHOW Statement 语句用于查看分区情况,详细说明参考:
- 添加 impalad 进程设置参数让你设置所有查询的初始化内存值,详细说明参考:Using YARN Resource Management with Impala (CDH 5 Only)
- CDH 5.1 中可以利用 Llama 高可用的特性,详细说明参考:Using Impala with a Llama High Availability Configuration
- Using the Avro File Format with Impala Tables 语句支持 ,详细说明参考:
- impala-shell 中添加 Using the SUMMARY Report for Performance Tuning 命令用于查看摘要信息,详细说明参考:
- 函数通过生成本地代码加快速度
- 在 1.4.0 或者更高版本,不再统计 NULL 值,其值被看做为 -1,详细说明参考:How Impala Uses Statistics for Query Optimization
语句性能改进:
- 分区性能改进。之前只能处理3000个分区,现在没有这个限制,详细说明参考:Partition Pruning for Queries
- impala-shell 支持 UTF-8 字符的输入和输出,可以通过参数 控制是否忽略不合法的 Unicode 字符。
1.3.1
该版本主要是 bug 修复,可以在 CDH 4 和 CDH 5 中使用。
- 在 impalad 启动参数中,添加 INSERT Statement 参数用于设置创建分区的用户。默认的,INSERT 会使用 HDFS 权限为新分区创建目录,详细说明参考:
- SHOW Statement 函数显示每个函数的返回类型,详细说明参考:
- Using Text Data Files with Impala Tables 语句可以使用 语句,详细说明参考:
- 在 1.3.1 以及更高版本后,REGEXP Operator。 和 可以不再使用。 和 的语义进行修正,和数据库中的语义进行兼容,详细说明参考:
1.3.0
- Admission Control and Query Queuing
- EXPLAIN Statement 和 Understanding Impala Query Performance - EXPLAIN Plans and Query Profiles 以一种更容易读的格式显示更加详细的内容,详细说明参考:
- 、 和
- 增加条件函数: Conditional Functions 、 、 ,详细说明参考:
- 添加新的功能函数:Miscellaneous Functions ,详细说明参考:
- 和 yarn 集成,只在 CDH5 中可用,详细说明参考:Using YARN Resource Management with Impala (CDH 5 Only)
1.2.4
该版本用于 CDH4,主要针对 1.2.3 做了一些 bug 修复。
- 增加 语法刷新新建的一个表
- 添加 catalogd 启动参数:
- ,是否后台运行
- ,并行加载线程
1.2.3
Impala 1.2.3 works with CDH 4 and with CDH 5 beta 2. The resource management feature requires CDH 5 beta.
该版本主要是在 1.2.2 基础上修复 Parquet 兼容性,详细说明参考:Known Issues and Workarounds in Impala
1.2.2
Impala 1.2.2 works with CDH 4. Its feature set is a superset of features in the Impala 1.2.0 beta, with the exception of resource management, which relies on CDH 5.
- Performance Considerations for Join Queries ,详细说明参考:
- Overriding Join Reordering with STRAIGHT_JOIN ,详细说明参考:
- Cross Joins and Cartesian Products with the CROSS JOIN Operator ,详细说明参考:
- LDAP 支持
- 添加
- 语句可以添加 或者 ,主要是用在插入数据到 Parquet 表的分区的时候。
- 添加 用于类型转换
- 添加 Mathematical Functions 用于计算 hash 值,详细说明参考:
- 支持 语句。
1.2.1
- 添加 和 语法
- 添加 语法
- 支持 语句,用于分页查询
- 语句中添加 和 语法支持
- 添加内置函数: , ,
- 添加 函数来计算
- 语句接受数值表达式作为参数
- 添加两个参数:Setting Timeout Periods for Daemons, Queries, and Sessions 和 ,详细说明参考:
- 支持 UDFs,详细说明参考:CREATE FUNCTION Statement 和 DROP FUNCTION Statement
- 添加新的同步元数据的机制,详细参考:The Impala Catalog Service
- 添加 语法
- CREATE TABLE Statement 和 ALTER TABLE Statement 和 支持 和 语句,详细说明参考:
- 语句支持算术表达式
1.0
· 支持ALTER TABLE。
· 支持通过Hints指定join策略。支持的Hints:
o [broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join)
o [shuffle]: partitionedjoin策略(分片join)
· 支持刷新单个表的元数据。元数据的自动刷新仍然不支持。
· 动态资源管理,允许高并发的查询。
0.7
· 支持Parquet文件格式。Parquet是列存储的格式,对查询特别是面向列的查询性能提升有非常大的提升。
· 支持Avro。
· 支持内存限制。之前Impala进程对内存使用没有限制,会造成节点内存耗尽。
· 通过提供broadcast join提供更大和更快的join。
· 完全分布式的聚合(aggregations)计算。之前的计算需要所有数据拖到一个节点上进行聚合处理。
· 完全分布式的top计算。之前的计算需要所有数据拖到一个节点上进行top处理。
· 支持创建和修改表。
· 支持对floats和doubles的GROUP BY。
0.6.
· 支持SUSE和Debian/Ubuntu,目前支持以下OS:
o RHEL5.7/6.2 and Centos5.7/6.2
o SUSE 11 with Service Pack 1 or later
o Ubuntu 10.04/12.04 and Debian 6.03
· 支持RCFile文件格式。
0.5
· 添加JDBC驱动,运行用户从Java客户端访问Impala。