Hudi
文章平均质量分 92
小明同学YYDS
good good study!day day up!
展开
-
数据湖之Hudi:基于Spark引擎使用Hudi的DeltaStreamer组件工具
HoodieDeltaStreamer工具 (hudi-utilities-bundle中的一部分) 提供了从DFS或Kafka等不同来源进行摄取的方式,并具有以下功能:精准一次从Kafka采集新数据,从Sqoop、HiveIncrementalPuller的输出或DFS文件夹下的文件增量导入导入的数据支持json、avro或自定义数据类型管理检查点,回滚和恢复利用 DFS 或 Confluent schema registry的 Avro Schema支持自定义转换操作。原创 2023-01-19 16:00:35 · 2433 阅读 · 1 评论 -
数据湖之Hudi基础:集成Spark
主要记录下的整合Spark操作,操作内容参考尚硅谷Hudi公开资料以及Hudi官方文档具体参看官方文档:https://hudi.apache.org/docs/0.12.1/quick-start-guide。Hudi集成spark原创 2023-01-18 00:18:54 · 1947 阅读 · 0 评论 -
数据湖之Hudi基础:核心原理
数据湖核心概念,copy on write,merge on read,Hudi的核心是维护表上在不同的即时时间(instants)执行的所有操作的时间轴(timeline)Hudi通过索引机制提供高效的upserts简称MOR表。包含列存的基本文件(.parquet)和行存的增量日志文件(基于行的avro格式,.log.*)。原创 2023-01-17 11:49:44 · 1083 阅读 · 0 评论 -
数据湖之Hudi基础:入门介绍和编译部署
Hudi手动编译部署。Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。原创 2023-01-16 17:09:05 · 1434 阅读 · 2 评论