Hudi
文章平均质量分 87
一个数据小开发
阿里巴巴集团码农一枚~欢迎一起交流学习进步
展开
-
Flink On Hudi整个系列中可能遇到的问题
1、ERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor executes action [Execute compaction for instant 20220331114224581 from task 0] errorERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor execut...原创 2022-04-13 15:14:41 · 2387 阅读 · 0 评论 -
Flink CDC模式写入Hudi
1、前沿之前对数据湖的相关知识和怎么搭建都做了详细的讲解,感兴趣的可以去了解下数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-CSDN博客从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客接下来,就是Flink on Hudi的实战了,这一篇带来的CDC模式的入湖。2、实战2.1、启动本地环境export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpat...原创 2022-04-13 14:48:43 · 2214 阅读 · 0 评论 -
Flink SQL Kafka写入Hudi详解
Flink读写Hudi案列详解原创 2022-04-13 14:30:10 · 4504 阅读 · 3 评论 -
从0到1搭建数据湖Hudi环境
一、目标在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,华为云的OBS等,都是可以支持的,所以本地只需要部署一套Hadoop架构就可以跑起来相关的案...原创 2022-04-10 21:09:20 · 10039 阅读 · 5 评论 -
数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi
数据湖概念首次于2010年被James Dixon在其博客帖子(Pentaho, Hadoop, and Data Lakes | James Dixon's Blog)中提及 :数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和...原创 2022-04-06 11:01:38 · 27109 阅读 · 1 评论 -
数据湖Hudi专栏系列带你深入了解不一样的大数据技术
1、数据湖是什么?能干什么?为啥是数据湖?2、从0到1本地搭建数据湖环境3、数据湖典型应用,Flink实时流写入数据湖,spark读取数据湖里的数据。我即将分如上三个模块进行详细的讲解。此专栏摒弃数据湖官方的docker demo,自己在本地根据实际情况进行的环境搭建,因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。...原创 2022-03-31 20:57:42 · 1948 阅读 · 2 评论