数据湖Hudi专栏系列带你深入了解不一样的大数据技术

一个数据小开发

已于 2022-04-13 15:15:35 修改

阅读量1.8k

点赞数

分类专栏：大数据 Hudi 文章标签：大数据数据湖 Hudi

于 2022-03-31 20:57:42 首次发布

本文链接：https://blog.csdn.net/aaron_ch/article/details/123883136

版权

大数据同时被 2 个专栏收录

27 篇文章 9 订阅

订阅专栏

Hudi

6 篇文章 6 订阅

订阅专栏

1、数据湖是什么？能干什么？为啥是数据湖？

数据湖发展至今，已经成为一个当下大数据行业比较火爆的话题，并且很多大公司介入开始使用和研究，下面这篇博文带你深入了解相关的概念，有助于大家一起了解数据湖。

数据湖基本概念--什么是数据湖，数据湖又能干什么？为什么是Hudi_一个数据小开发的博客-CSDN博客

2、从0到1本地搭建数据湖环境

本地构建一个数据湖的Hudi的环境，可以有利用大家做一些demo去了解内部的运行机制和特征。下面这篇博文，将带大家从最基础的环境构建起。

从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客

3、数据湖典型应用，Flink实时流写入数据湖，spark读取数据湖里的数据。

当了解完基本概念和本地也具备了相关环境之后，如果正确使用，又是一个问题，下面极偏博文将详细讲解如何编码使用。

Flink SQL Kafka写入Hudi详解_一个数据小开发的博客-CSDN博客

Flink CDC模式写入Hudi_一个数据小开发的博客-CSDN博客

4、搭建过程中经常遇到的问题和错误，怎么解决的？

Flink On Hudi整个系列中可能遇到的问题_一个数据小开发的博客-CSDN博客

我即将分如上四个模块进行详细的讲解。

此专栏摒弃数据湖官方的docker demo，自己在本地根据实际情况进行的环境搭建，因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。

5、官方的案例

# Spark SQL for spark 3.1
spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 3.0
spark-sql --packages org.apache.hudi:hudi-spark3.0.3-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.0.3 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 2 with scala 2.11
spark-sql --packages org.apache.hudi:hudi-spark-bundle_2.11:0.10.1,org.apache.spark:spark-avro_2.11:2.4.4 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 2 with scala 2.12
spark-sql \
  --packages org.apache.hudi:hudi-spark-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:2.4.4 \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

Quick Start

Setup

We use the Flink Sql Client because it's a good quick start tool for SQL users.

Step.1 download Flink jar

Hudi works with Flink-1.13.x version. You can follow instructions here for setting up Flink. The hudi-flink-bundle jar is archived with scala 2.11, so it’s recommended to use flink 1.13.x bundled with scala 2.11.

Step.2 start Flink cluster

Start a standalone Flink cluster within hadoop environment. Before you start up the cluster, we suggest to config the cluster as follows:

in $FLINK_HOME/conf/flink-conf.yaml, add config option taskmanager.numberOfTaskSlots: 4
in $FLINK_HOME/conf/flink-conf.yaml, add other global configurations according to the characteristics of your task
in $FLINK_HOME/conf/workers, add item localhost as 4 lines so that there are 4 workers on the local cluster

-- Hudi yyds

一个数据小开发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
数据湖Hudi专栏系列带你深入了解不一样的大数据技术

1、数据湖是什么？能干什么？为啥是数据湖？2、从0到1本地搭建数据湖环境3、数据湖典型应用，Flink实时流写入数据湖，spark读取数据湖里的数据。我即将分如上三个模块进行详细的讲解。此专栏摒弃数据湖官方的docker demo，自己在本地根据实际情况进行的环境搭建，因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。...
复制链接

扫一扫