Apache Hudi
文章平均质量分 95
Apache Hudi
涂作权的博客
To do what I want to do!
展开
-
07_Hudi案例实战、Flink CDC 实时数据采集、Presto、FineBI 报表可视化等
7.第七章 Hudi案例实战7.1 案例架构7.2 业务数据7.2.1 客户信息表7.2.2 客户意向表7.2.3 客户线索表7.2.4 线索申诉表7.2.5 客户访问咨询记录表7.3 Flink CDC 实时数据采集7.3.1 开启MySQL binlog7.3.2 环境准备7.3.3 实时采集数据7.3.3.1 客户信息表7.3.3.2 客户意向表7.3.3.3 客户线索表7.3.3.4 客户申诉表7.3.3.5 客户访问咨询记录表7.4 Presto 即席分析7.4原创 2023-08-14 11:02:31 · 1982 阅读 · 0 评论 -
06_Hudi案例实战、Apache Flume日志采集、SparkSession数据处理、数据入kafka、保存Hudi表、集成Hive指标分析、加载Hudi表数据、FineBI 报表可视化等
本文来自"黑马程序员"hudi课程6.第六章 Hudi案例实战6.1 案例架构6.2 业务数据6.2.1 消息数据格式6.2.2 数据生成6.3 七陌数据采集6.3.1 Apache Flume 是什么6.3.2 Apache Flume 运行机制6.3.3 Apache Flume 安装部署6.3.4 Apache Flume 入门程序6.3.5 七陌社交数据采集6.3.5 七陌社交数据采集6.4.1 创建模块6.4.2 封装实体类6.4.3 编写流式程序6.4.3.1 构建原创 2023-08-13 12:49:55 · 1086 阅读 · 0 评论 -
05_Hudi 集成 Flink、Streaming query、Flink SQL Writer、Flink SQL集成Kafka、Flink SQL写入Hudi、消费Kafka数据等
本文来自"黑马程序员"hudi课程5.第五章 Hudi 集成 Flink5.1 安装Flink 1.125.2 快速入门5.2.1 集成Flink概述5.2.2 环境准备5.2.3 创建表5.2.4 插入数据5.2.5 查询数据5.2.6 更新数据5.3 Streaming query5.3.1 创建表5.3.2 查询数据5.3.3 插入数据5.4 Flink SQL Writer5.4.1 Flink SQL集成Kafka5.4.2 Flink SQL写入Hudi5.4.2原创 2023-08-13 10:37:38 · 904 阅读 · 0 评论 -
04_Hudi 集成 Spark、保存数据至Hudi、集成Hive查询、MergeInto 语句
本文来自"黑马程序员"hudi课程4.第四章 Hudi 集成 Spark4.1 环境准备4.1.1 安装MySQL 5.7.314.1.2 安装Hive 2.14.1.3 安装Zookeeper 3.4.64.1.4 安装Kafka 2.4.14.2 滴滴运营分析4.2.1 需求说明4.2.2 环境准备4.2.2.1 工具类SparkUtils4.2.2.2 日期转换星期4.2.3 数据ETL保存4.2.3.1 开发步骤4.2.3.2 加载CSV数据。原创 2023-08-12 00:04:58 · 1226 阅读 · 0 评论 -
03_Hudi 核心概念、时间轴Timeline、文件管理、索引Index、存储类型、计算模型、批式模型Batch、流式模型Stream、增量模型Incremental、查询类型、数据写操作流程等
3.第三章 Hudi 核心概念3.1 基本概念3.1.1 时间轴Timeline3.1.2 文件管理3.1.3 索引Index3.2 存储类型3.2.1 计算模型3.2.1.1 批式模型(Batch)3.2.1.2 流式模型(Stream)3.2.1.3 增量模型(Incremental)3.2.2 查询类型(Query Type)3.2.5 COW和MOR对比3.3 数据写操作流程3.3.1 UPSERT 写流程。原创 2023-08-11 22:46:20 · 661 阅读 · 1 评论 -
02_快速体验 Hudi、编译 Hudi、安装HDFS、安装Spark 3.x、模拟数据、插入数据、查询数据、.hoodie文件、数据文件、Hudi 数据存储概述、Metadata 元数据等
Hudi数据集的组织目录结构与Hive表示非常相似,一份数据集对应这一个根目录。数据集被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件。在根目录下,每个分区都有唯一的分区路径,每个分区数据存储在多个文件中。每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时,多个文件共享相同的fileId,但会有不同的commit。每条记录由记录的key值进行标识并映射到一个fileId。原创 2023-08-11 22:09:15 · 1558 阅读 · 0 评论 -
01_Hudi 框架概述、数据湖Data Lake、什么是数据湖、数据湖框架、背景概述、Hudi 介绍、Hudi 发展及特性等
先了解什么是数据湖DataLake,及Hudi 数据湖框架功能及各个版本特性。Data lake这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是:把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式。数据库和数据仓库会以关系型的方式来设计存储、处理数据。原创 2023-08-11 20:35:49 · 2155 阅读 · 0 评论