impala刷新元数据_重磅！Impala 3.4正式集成开源数据湖框架Apache Hudi

最新推荐文章于 2024-09-24 09:45:48 发布

weixin_39541844

最新推荐文章于 2024-09-24 09:45:48 发布

阅读量619

点赞数

文章标签： impala刷新元数据

本文链接：https://blog.csdn.net/weixin_39541844/article/details/112089237

版权

Apache Impala 3.4版本发布，引入了Result Spooling、Ranger Integration等新特性，并集成开源数据湖框架Apache Hudi，提升了ORC文件读取性能。此外，还支持了Hudi Read Optimized格式的表，增强了元数据处理和数据脱敏功能。

摘要由CSDN通过智能技术生成

点击上方“hadoop123”关注我们

知名的大数据中台技术分享基地，涉及大数据架构(hadoop/spark/flink等)，数据平台(数据交换、数据服务、数据治理等)和数据产品(BI、AB测试平台)等，也会分享最新技术进展，大数据相关职位和求职信息，大数据技术交流聚会、讲座以及会议等。

Apache Impala是一个高性能的SQL查询引擎，主要面向SQL on Hadoop中的交互式查询场景。Impala社区在四月底发布了3.4版本。这是时隔半年后的又一个新版本，也是最后一个3.x版本。之后将进入4.x时代，为的是接受一系列 breaking changes，如删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持等。具体的 breaking changes 还在讨论之中，感兴趣的同学可以订阅邮件列表参与讨论。本文主要介绍 3.4 版本带来的新功能以及新的提升，概括起来有这么几个方面：Result Spooling, Column Masking，Apache ORC, Apache Hudi。还有若干正在进展中的项目，也将在最后介绍。