点击上方“hadoop123”关注我们
知名的大数据中台技术分享基地,涉及大数据架构(hadoop/spark/flink等),数据平台(数据交换、数据服务、数据治理等)和数据产品(BI、AB测试平台)等,也会分享最新技术进展,大数据相关职位和求职信息,大数据技术交流聚会、讲座以及会议等。
Apache Impala是一个高性能的SQL查询引擎,主要面向SQL on Hadoop中的交互式查询场景。Impala社区在四月底发布了3.4版本。这是时隔半年后的又一个新版本,也是最后一个3.x版本。之后将进入4.x时代,为的是接受一系列 breaking changes,如删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持等。具体的 breaking changes 还在讨论之中,感兴趣的同学可以订阅邮件列表参与讨论。本文主要介绍 3.4 版本带来的新功能以及新的提升,概括起来有这么几个方面:Result Spooling, Column Masking,Apache ORC, Apache Hudi。还有若干正在进展中的项目,也将在最后介绍。
Impala 3.4 的新功能
Result Spooling
要解释 Result Spooling 解决的问题,先要介绍下 Impala 的执行机制。Impala 的执行引擎遵从 volcano 模型设计,整个执行计划树流水线式地自上而下抽取数据,数据以batch的形式在operator间传递。当用户获取到第一行数据时,只代表第一个batch的计算