Apache Amoro (incubating) 项目推荐

最新推荐文章于 2024-09-13 22:10:44 发布

嵇芝慈Kelsey

最新推荐文章于 2024-09-13 22:10:44 发布

阅读量223

点赞数 3

本文链接：https://blog.csdn.net/gitblog_09593/article/details/142228851

版权

Apache Amoro (incubating) 项目推荐

amoro Amoro is a Lakehouse management system built on open data lake formats. 项目地址: https://gitcode.com/gh_mirrors/am/amoro

项目基础介绍和主要编程语言

Apache Amoro (incubating) 是一个基于开放数据湖格式的 Lakehouse 管理系统。该项目主要使用 Java 编程语言开发，适用于构建和管理数据湖架构。Amoro 旨在通过提供插件化和自我管理的功能，为 Lakehouse 提供开箱即用的数据仓库体验，并帮助数据平台或产品轻松构建基础设施解耦、流批融合和湖原生架构。

项目核心功能

自我优化：持续优化表，包括压缩小文件、更改文件、定期删除过期文件，以保持高查询性能并降低存储成本。
多格式支持：支持不同的表格式，如 Iceberg、Mixed-Iceberg 和 Mixed-Hive，以满足不同场景的需求，并提供统一的管理能力。
目录服务：为所有计算引擎提供统一的目录服务，可以与现有的元数据存储服务（如 Hive Metastore 和 AWS Glue）结合使用。
丰富的插件：提供多种插件，以集成其他系统，如使用 Flink 进行持续优化，使用 Spark 和 Kyuubi 进行数据分析。
管理工具：提供多种管理工具，包括 WEB UI 和标准 SQL 命令行，帮助用户更快上手并更容易与其他系统集成。
基础设施独立：可以轻松部署和使用在私有环境、云环境、混合云环境和多云环境中。

项目最近更新的功能

根据最新的更新记录，Apache Amoro (incubating) 最近更新的功能包括：

支持 Paimon 格式：Amoro 现在支持显示 Paimon 格式的元数据信息，包括 Schema、Options、Files、Snapshots、DDLs 和 Compaction 信息。
优化器改进：对优化器进行了改进，包括对 Flink 和 Spark 的优化器版本支持，以及对 Hadoop 2.x 依赖的支持。
构建工具更新：更新了 Maven 构建配置，支持在 JDK 17 下构建 amoro-mixed-trino 模块，并提供了更多的构建选项，如跳过测试、跳过仪表板构建等。
插件扩展：增加了更多的插件支持，以满足不同场景的需求，如 Flink 和 Spark 的连接器更新。

通过这些更新，Apache Amoro (incubating) 进一步增强了其作为 Lakehouse 管理系统的功能和灵活性，为用户提供了更强大的数据湖管理能力。

amoro Amoro is a Lakehouse management system built on open data lake formats. 项目地址: https://gitcode.com/gh_mirrors/am/amoro