1、数据湖是什么?能干什么?为啥是数据湖?
数据湖发展至今,已经成为一个当下大数据行业比较火爆的话题,并且很多大公司介入开始使用和研究,下面这篇博文带你深入了解相关的概念,有助于大家一起了解数据湖。
数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-CSDN博客
2、从0到1本地搭建数据湖环境
本地构建一个数据湖的Hudi的环境,可以有利用大家做一些demo去了解内部的运行机制和特征。下面这篇博文,将带大家从最基础的环境构建起。
从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客
3、数据湖典型应用,Flink实时流写入数据湖,spark读取数据湖里的数据。
当了解完基本概念和本地也具备了相关环境之后,如果正确使用,又是一个问题,下面极偏博文将详细讲解如何编码使用。
Flink SQL Kafka写入Hudi详解_一个数据小开发的博客-CSDN博客
Flink CDC模式写入Hudi_一个数据小开发的博客-CSDN博客
4、搭建过程中经常遇到的问题和错误,怎么解决的?
Flink On Hudi整个系列中可能遇到的问题_一个数据小开发的博客-CSDN博客
我即将分如上四个模块进行详细的讲解。
此专栏摒弃数据湖官方的docker demo,自己在本地根据实际情况进行的环境搭建,因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。
5、官方的案例
# Spark SQL for spark 3.1
spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
# Spark SQL for spark 3.0
spark-sql --packages org.apache.hudi:hudi-spark3.0.3-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.0.3 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
# Spark SQL for spark 2 with scala 2.11
spark-sql --packages org.apache.hudi:hudi-spark-bundle_2.11:0.10.1,org.apache.spark:spark-avro_2.11:2.4.4 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
# Spark SQL for spark 2 with scala 2.12
spark-sql \
--packages org.apache.hudi:hudi-spark-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:2.4.4 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
Quick Start
Setup
We use the Flink Sql Client because it's a good quick start tool for SQL users.
Step.1 download Flink jar
Hudi works with Flink-1.13.x version. You can follow instructions here for setting up Flink. The hudi-flink-bundle jar is archived with scala 2.11, so it’s recommended to use flink 1.13.x bundled with scala 2.11.
Step.2 start Flink cluster
Start a standalone Flink cluster within hadoop environment. Before you start up the cluster, we suggest to config the cluster as follows:
- in
$FLINK_HOME/conf/flink-conf.yaml
, add config optiontaskmanager.numberOfTaskSlots: 4
- in
$FLINK_HOME/conf/flink-conf.yaml
, add other global configurations according to the characteristics of your task - in
$FLINK_HOME/conf/workers
, add itemlocalhost
as 4 lines so that there are 4 workers on the local cluster
-- Hudi yyds