![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hudi
文章平均质量分 91
半岛铁子_
那就叫小胡吧
展开
-
Spark 结构化流写入Hudi 实践
整合Spark StructuredStreaming与Hudi,实时将流式数据写入Hudi表中,对每批次数据batch DataFrame,采用Spark DataSource方式写入数据。流程与前一篇博客https://blog.csdn.net/hshudoudou/article/details/125303310?spm=1001.2014.3001.5501的配置文件一致。项目结构如下图所示:主要是 stream 包下的两个 spark 代码。注意修改 Kafka Client P原创 2022-06-16 21:23:00 · 962 阅读 · 2 评论 -
Hudi 集成 Spark 数据分析示例(含代码流程与测试结果)
Spark 与 Hudi 进行整合,处理滴滴出行数据进行统计分析。原创 2022-06-15 20:12:57 · 1065 阅读 · 6 评论 -
Hudi学习笔记(三) 核心概念剖析
Hudi 提供了Hudi 表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使 用SparkSQL或Hive等分析引擎进行数据分析查询。Hudi表的三个主要组件:1)有序的时间轴元数据,类似于数据库事务日志;2)分层布局的数据文件:实际写 入表中的数据;3)索引(多种实现方式):映射包含指定记录的数据集。Hudi 核心:在所有的表中维护了一个包含在不同的即时(Instant)时间对数据集操作(比如新增、修改或删除) 的时间轴(Timeline)。在每一次对Hudi原创 2022-06-12 09:27:20 · 966 阅读 · 0 评论 -
IDEA 中使用 Hudi
在Idea中编程使用Hudi,对Hudi表数据进行CURD原创 2022-06-11 20:22:48 · 960 阅读 · 0 评论 -
Hudi 数据管理和存储概述
**Hudi 是如何管理数据? **使用表Table形式组织数据,并且每张表中数据类 似Hive分区表,按照分区字段划分数据到不同目录中, 每条数据有主键PrimaryKey,标识数据唯一性。Hudi 数据管理Hudi表的数据文件,可以使用操作系统的文件系统存储,也可以使用HDFS这种分布式的文件系统存储。为了分 析性能和数据的可靠性,一般使用HDFS进行存储。以HDFS存储来看,一个Hudi表的存储文件分为两类。(1).hoodie 文件:由于CRUD的零散性,每一次的操作都会生成一个文件,这些小文件越来原创 2022-06-09 21:48:55 · 1620 阅读 · 0 评论 -
Hudi 快速体验使用(含操作详细步骤及截图)
本示例要完成下面的流程:需要提前安装好hadoop、spark以及hudi及组件。spark 安装教程:https://blog.csdn.net/hshudoudou/article/details/125204028?spm=1001.2014.3001.5501hudi 编译与安装教程:https://blog.csdn.net/hshudoudou/article/details/123881739?spm=1001.2014.3001.5501注意只Hudi管理数据,不存储数据,不分析原创 2022-06-09 21:32:10 · 1922 阅读 · 0 评论