Impala各版本新特性

本文主要整理一下 Impala 每个版本的新特性,方便了解 Impala 做了哪些改进、修复了哪些 bug。

Impala 目前最新版本为 1.4.0,其下载地址为:http://archive.cloudera.com/impala/redhat/6/x86_64/impala/

不得不说的事情:

  • 1.3.1 用于 CDH4
  • 1.4.0 用于 CDH5

1.4.0

1.3.1

该版本主要是 bug 修复,可以在 CDH 4 和 CDH 5 中使用。

  • 在 impalad 启动参数中,添加 --insert_inherit_permissions 参数用于设置创建分区的用户。默认的,INSERT 会使用 HDFS 权限为新分区创建目录,详细说明参考:INSERT Statement
  • SHOW 函数显示每个函数的返回类型,详细说明参考:SHOW Statement
  • CREATE TABLE 语句可以使用 FIELDS TERMINATED BY '\0' 语句,详细说明参考:Using Text Data Files with Impala Tables
  • 在 1.3.1 以及更高版本后,REGEXP 和 RLIKE 的语义进行修正,和数据库中的语义进行兼容,详细说明参考:REGEXP Operatorregexp_extract() 和 regexp_replace() 可以不再使用。

1.3.0

1.2.4

该版本用于 CDH4,主要针对 1.2.3 做了一些 bug 修复。

  • 增加 INVALIDATE METADATA table_name 语法刷新新建的一个表
  • 添加 catalogd 启动参数:
    • --load_catalog_in_background,是否后台运行
    • --num_metadata_loading_threads,并行加载线程

1.2.3

Impala 1.2.3 works with CDH 4 and with CDH 5 beta 2. The resource management feature requires CDH 5 beta.

该版本主要是在 1.2.2 基础上修复 Parquet 兼容性,详细说明参考:Known Issues and Workarounds in Impala

1.2.2

Impala 1.2.2 works with CDH 4. Its feature set is a superset of features in the Impala 1.2.0 beta, with the exception of resource management, which relies on CDH 5.

1.2.1

  • 添加 SHOW TABLE STATS table_name 和 SHOW COLUMN STATS table_name 语法
  • 添加 CREATE TABLE AS SELECT 语法
  • 支持 OFFSET 语句,用于分页查询
  • ORDER BY 语句中添加 NULLS FIRST 和 NULLS LAST 语法支持
  • 添加内置函数: least()greatest()initcap()
  • 添加 ndv() 函数来计算 COUNT(DISTINCT col)
  • LIMIT 语句接受数值表达式作为参数
  • SHOW CREATE TABLE
  • 添加两个参数:--idle_query_timeout 和 --idle_session_timeout,详细说明参考:Setting Timeout Periods for Daemons, Queries, and Sessions
  • 支持 UDFs,详细说明参考:CREATE FUNCTION Statement 和 DROP FUNCTION Statement
  • 添加新的同步元数据的机制,详细参考:The Impala Catalog Service
  • 添加 CREATE TABLE ... AS SELECT 语法
  • CREATE TABLE 和 ALTER TABLE 支持 TBLPROPERTIES 和 WITH SERDEPROPERTIES 语句,详细说明参考:CREATE TABLE Statement 和 ALTER TABLE Statement
  • EXPLAIN
  • SHOW CREATE TABLE
  • LIMIT 语句支持算术表达式

1.0

·        支持ALTER TABLE

·        支持通过Hints指定join策略。支持的Hints

o    [broadcast]broadcast join策略(将小表放到所有节点上与大表进行分片join

o    [shuffle]   partitionedjoin策略(分片join

·        支持刷新单个表的元数据。元数据的自动刷新仍然不支持。

·        动态资源管理,允许高并发的查询。

0.7

·        支持Parquet文件格式。Parquet是列存储的格式,对查询特别是面向列的查询性能提升有非常大的提升。

·        支持Avro

·        支持内存限制。之前Impala进程对内存使用没有限制,会造成节点内存耗尽。

·        通过提供broadcast join提供更大和更快的join

·        完全分布式的聚合(aggregations)计算。之前的计算需要所有数据拖到一个节点上进行聚合处理。

·        完全分布式的top计算。之前的计算需要所有数据拖到一个节点上进行top处理。

·        支持创建和修改表。

·        支持对floatsdoublesGROUP BY

0.6.

·        支持SUSEDebian/Ubuntu,目前支持以下OS

o    RHEL5.7/6.2 and Centos5.7/6.2

o    SUSE 11 with Service Pack 1 or later

o    Ubuntu 10.04/12.04 and Debian 6.03

·        支持RCFile文件格式。

0.5

·        添加JDBC驱动,运行用户从java客户端访问Impala

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值