Apache Amoro (incubating) 项目推荐
项目基础介绍和主要编程语言
Apache Amoro (incubating) 是一个基于开放数据湖格式的 Lakehouse 管理系统。该项目主要使用 Java 编程语言开发,适用于构建和管理数据湖架构。Amoro 旨在通过提供插件化和自我管理的功能,为 Lakehouse 提供开箱即用的数据仓库体验,并帮助数据平台或产品轻松构建基础设施解耦、流批融合和湖原生架构。
项目核心功能
- 自我优化:持续优化表,包括压缩小文件、更改文件、定期删除过期文件,以保持高查询性能并降低存储成本。
- 多格式支持:支持不同的表格式,如 Iceberg、Mixed-Iceberg 和 Mixed-Hive,以满足不同场景的需求,并提供统一的管理能力。
- 目录服务:为所有计算引擎提供统一的目录服务,可以与现有的元数据存储服务(如 Hive Metastore 和 AWS Glue)结合使用。
- 丰富的插件:提供多种插件,以集成其他系统,如使用 Flink 进行持续优化,使用 Spark 和 Kyuubi 进行数据分析。
- 管理工具:提供多种管理工具,包括 WEB UI 和标准 SQL 命令行,帮助用户更快上手并更容易与其他系统集成。
- 基础设施独立:可以轻松部署和使用在私有环境、云环境、混合云环境和多云环境中。
项目最近更新的功能
根据最新的更新记录,Apache Amoro (incubating) 最近更新的功能包括:
- 支持 Paimon 格式:Amoro 现在支持显示 Paimon 格式的元数据信息,包括 Schema、Options、Files、Snapshots、DDLs 和 Compaction 信息。
- 优化器改进:对优化器进行了改进,包括对 Flink 和 Spark 的优化器版本支持,以及对 Hadoop 2.x 依赖的支持。
- 构建工具更新:更新了 Maven 构建配置,支持在 JDK 17 下构建 amoro-mixed-trino 模块,并提供了更多的构建选项,如跳过测试、跳过仪表板构建等。
- 插件扩展:增加了更多的插件支持,以满足不同场景的需求,如 Flink 和 Spark 的连接器更新。
通过这些更新,Apache Amoro (incubating) 进一步增强了其作为 Lakehouse 管理系统的功能和灵活性,为用户提供了更强大的数据湖管理能力。