impala刷新元数据_重磅!Impala 3.4正式集成开源数据湖框架Apache Hudi

Apache Impala 3.4版本发布,引入了Result Spooling、Ranger Integration等新特性,并集成开源数据湖框架Apache Hudi,提升了ORC文件读取性能。此外,还支持了Hudi Read Optimized格式的表,增强了元数据处理和数据脱敏功能。
摘要由CSDN通过智能技术生成
点击上方“hadoop123”关注我们

知名的大数据中台技术分享基地,涉及大数据架构(hadoop/spark/flink等),数据平台(数据交换、数据服务、数据治理等)和数据产品(BI、AB测试平台)等,也会分享最新技术进展,大数据相关职位和求职信息,大数据技术交流聚会、讲座以及会议等。

Apache Impala是一个高性能的SQL查询引擎,主要面向SQL on Hadoop中的交互式查询场景。Impala社区在四月底发布了3.4版本。这是时隔半年后的又一个新版本,也是最后一个3.x版本。之后将进入4.x时代,为的是接受一系列 breaking changes,如删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持等。具体的 breaking changes 还在讨论之中,感兴趣的同学可以订阅邮件列表参与讨论。本文主要介绍 3.4 版本带来的新功能以及新的提升,概括起来有这么几个方面:Result Spooling, Column Masking,Apache ORC, Apache Hudi。还有若干正在进展中的项目,也将在最后介绍。

Impala 3.4 的新功能

Result Spooling

要解释 Result Spooling 解决的问题,先要介绍下 Impala 的执行机制。Impala 的执行引擎遵从 volcano 模型设计,整个执行计划树流水线式地自上而下抽取数据,数据以batch的形式在operator间传递。当用户获取到第一行数据时,只代表第一个batch的计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值