hudi 数据湖动态列测试

桃子酱K

已于 2022-06-17 13:41:15 修改

阅读量750

点赞数

文章标签： spark 大数据 big data

于 2022-06-15 17:06:35 首次发布

本文链接：https://blog.csdn.net/Kng_007/article/details/125300700

版权

hudi cow

新增字段

同步merge成parquet
scheme变更，可读，缺失数据为null

减少字段

写入失败：Parquet/Avro schema mismatch: Avro field ‘name’ not found

结论：新增字段可写可读，但新增后字段不能再减少

hudi mor

新增字段（会出现读取失败）

异步merge成parquet（有变更），写入.avro文件(无变更)
scheme变更，读取失败：Found hoodie.hudi_mor.hudi_mor_record, expecting hoodie.hudi_mor.hudi_mor_record, missing required field name2

减少字段

写入失败：Parquet/Avro schema mismatch: Avro field ‘title’ not found

结论：新增一个字段后，字段不能减少写入，数据也读不出来，只能不停按照新字段写入

parquet file

新增字段，减少字段都可写入：df.save

hive，spark读取字段顺序没问题，presto顺序异常

备注：
在这里插入图片描述

Hudi基于Avro格式表示Schema，因此对Schema的Evolution能力完全等同于Avro Schema的Evolution能力，即可以增加字段以及向上兼容的变更，如int变成long是兼容的，但long变成int是不兼容的。

当前现在社区已经有方案支持Full Schema Evolution，即可以增加一个字段，删去一个字段，重命名，也就是变更一个字段。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

桃子酱K

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hudi 数据湖动态列测试

使用spark写入hudi、parquet文件格式动态列测试
复制链接

扫一扫

Spark操作Hudi数据湖

10-20

Spark操作Hudi数据湖是一种高效、可扩展的方式来管理和分析大规模数据湖。Hudi（Hadoop Upsert Delta Table）是Facebook开源的一个数据湖解决方案，它旨在为Hadoop生态系统提供实时更新、查询和增量处理的能力。Hudi...

数据湖Hudi.doc

10-14

【数据湖Hudi详解】 Hudi，全称Hadoop Upsert Delta Store，是Apache Hadoop生态系统中的一个开源数据湖解决方案，特别设计用于处理大规模实时数据更新和查询。Hudi将流处理与大数据相结合，提供了实时数据更新的...

参与评论您还未登录，请先登录后发表或查看评论

通过Hudi操作表所新增的字段

一名程序猿的博客

02-20

769

Hudi操作表数据后新增字段

Mac M1 VM Centos7 大数据数据湖测试

L, there!

05-26

856

Mac M1 通过VMan安装Centos7.9，并搭建 Hadoop/Hive/Kafka/Flink/Iceberg 本地进行数据湖测试。问题： Paralles Desktop 没找到免费的，所以用了VM，VM也可以网上找。 Centos7.9官方版本在VM中不成功，所以使用了别人编译的版本：在m1芯片的MacBook上安装centos7 JDK使用 yum 安装 arm64架构的1.8.322版本。 MySQL使用官网下载arm64版本。 大数据相关组件使用官网二进制包。集.

数据湖技术Hudi0.10master测试流程

我去探险了

10-27

1298

Hudi0.10master测试流程本地环境名称版本描述 flink（pre-job） 1.3.2 通过parcel包部署于cdh6.3.2中 cdh 6.3.2 开源版本 hive 2.1.1-cdh6.3.2 包含cdh中（更换jar升级替换） hadoop 3.0.0-cdh6.3.2 cdh原生版本 presto 2.591 开源版本 trino 360 开源版本 hudi 0.10 master分支编译准备hudi包 github

上万规模数据湖如何在实验室测试

华为云官方博客

11-05

1386

摘要：上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试，也成为研发团队需要考虑的问题。

Hudi数据湖技术之快速体验

赵广陆

04-24

600

目录 1 编译 Hudi 1.1 第一步、Maven 安装 1.2 第二步、下载源码包 1.3 第三步、添加Maven镜像 1.4 第四步、执行编译命令 1.5 第五步、Hudi CLI测试 2 环境准备 2.1 安装HDFS 2.2 安装Spark 3.x 3 spark-shell 使用 3.1 启动spark-shell 3.2 模拟数据 3.3 插入数据 3.4 查询数据 3.5 表数据结构 3.5.1 .hoodie文件 3.5.2 数据文件 3.6 Hudi 数据存储概述 3.6.1 Metad

数据湖的最佳实践_数据湖

weixin_26711425的博客

09-08

572

数据湖的最佳实践As Data drives business we need Data lake to collect data and get advantage from it. In this story, we will cover all the insights about the data lake and know it in a better way. 随着数据推动业务发展，我...

数据湖存储格式Hudi原理与实践.pdf

10-03

数据湖存储格式Hudi原理与实践 数据湖存储格式Hudi原理与实践是当前大数据时代的热门话题。Hudi是一种基于Apache的数据湖存储格式，旨在解决数据湖存储的各种挑战，如数据管理复杂、实时性需求、半结构化数据处理等...

数据湖Hudi操作文档和实例代码

06-03

这份资料将会带领大家学习为什么要用数据湖技术、Hudi Timeline、Hudi文件格式及索引、Hudi表类型、Hudi与Spark、Flink框架整合等知识，如果你在学习、工作中针对批流一体数据处理场景正不知选择何种技术，在工作中...

数据湖架构开发Hudi 2022年

04-08

数据湖架构开发Hudi 内容包括： 1. hudi基础入门视频和资源 2. Hudi 应用进阶篇（Spark 集成）视频 3.Hudi 应用进阶篇（Flink 集成）视频适用于所有从事大数据行业人员，从小白或相关知识提升从数据湖相关基础...

神出鬼没的this

一个不安分的程序员

07-27

223

就这么简单? 这也不神出鬼没啊。鬼那能容易看到，如果那么容易看到也就不叫鬼了,接着往下面看：

数据湖之Hudi（17）：在云服务器上部署和调试Hudi的踩坑之旅

yang_shibiao的博客

03-31

2435

问题1：不能写入数据到HDFS中（There are 1 datanode(s) running and 1 node(s) are excluded in this operation.）

关于通过Asvc生成测试数据(Avro/Parquet)的工具类小结

BAStriver的博客

02-03

1267

目录 1. Avsc和Avro的关系 2. Avsc生成Java类 3. 根据Java类生成Avro格式的测试数据 3.1 Avsc的schema types 3.2 Complex type的使用 3.3 生成测试数据 1. Avsc和Avro的关系 AVSCfile is anApache AvroSchema. Avro is a remote procedure call and data serialization framework developed within...

「Hudi系列」Hudi查询&写入&常见问题汇总

微信搜：import_bigdata，大数据领域硬核原创作者

05-17

5894

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文教给我，你们专心刷题和面试阅读本文前必读：1. 「Apache Hudi系列」核心概念与架构设计总结2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成3. Apache Hudi 0.11 版本重磅发布，新特性速览!1.Hudi基本概念：Apache H...

Apache Hudi 从入门到放弃(2) —— MOR表的文件结构分析

狄杰的博客

05-02

6029

Apache Hudi 从入门到放弃(1) —— MOR表的文件结构分析写在开始本篇带大家分析一下Hudi中MOR表的文件结构刚开始看Hudi一周，有什么不对的地方欢迎大家指出事前准备建表 -- 先准备一张Hudi MOR表 CREATE TABLE hudi_test_dijie( id bigint, dt string, ts TIMESTAMP(3), PRIMARY KEY(id) NOT ENFORCED ) PARTITIONED BY (`dt`) WITH ( 'co

一种Hudi on Flink动态同步元数据变化的方法

0x3E6

12-05

4154

HoodieFlinkStreamer流程分析，及一种Hudi on Flink实现动态Schema Evolution的方法。

Hudi学习笔记（三）核心概念剖析

番茄炒蛋三分糖

06-12

970

Hudi 提供了Hudi 表的概念，这些表支持CRUD操作，可以利用现有的大数据集群比如HDFS做数据文件存储，然后使用SparkSQL或Hive等分析引擎进行数据分析查询。 Hudi表的三个主要组件：1）有序的时间轴元数据，类似于数据库事务日志；2）分层布局的数据文件：实际写入表中的数据；3）索引（多种实现方式）：映射包含指定记录的数据集。Hudi 核心：在所有的表中维护了一个包含在不同的即时（Instant）时间对数据集操作（比如新增、修改或删除）的时间轴（Timeline）。在每一次对Hudi

hudi数据湖重点面试题