数据湖Hudi专栏系列带你深入了解不一样的大数据技术

1、数据湖是什么?能干什么?为啥是数据湖?

        数据湖发展至今,已经成为一个当下大数据行业比较火爆的话题,并且很多大公司介入开始使用和研究,下面这篇博文带你深入了解相关的概念,有助于大家一起了解数据湖。

数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-CSDN博客

2、从0到1本地搭建数据湖环境

        本地构建一个数据湖的Hudi的环境,可以有利用大家做一些demo去了解内部的运行机制和特征。下面这篇博文,将带大家从最基础的环境构建起。

从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客

3、数据湖典型应用,Flink实时流写入数据湖,spark读取数据湖里的数据。

        当了解完基本概念和本地也具备了相关环境之后,如果正确使用,又是一个问题,下面极偏博文将详细讲解如何编码使用。

Flink SQL Kafka写入Hudi详解_一个数据小开发的博客-CSDN博客

Flink CDC模式写入Hudi_一个数据小开发的博客-CSDN博客

4、搭建过程中经常遇到的问题和错误,怎么解决的?

Flink On Hudi整个系列中可能遇到的问题_一个数据小开发的博客-CSDN博客

我即将分如上四个模块进行详细的讲解。

此专栏摒弃数据湖官方的docker demo,自己在本地根据实际情况进行的环境搭建,因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。

5、官方的案例

# Spark SQL for spark 3.1
spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 3.0
spark-sql --packages org.apache.hudi:hudi-spark3.0.3-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.0.3 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 2 with scala 2.11
spark-sql --packages org.apache.hudi:hudi-spark-bundle_2.11:0.10.1,org.apache.spark:spark-avro_2.11:2.4.4 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

# Spark SQL for spark 2 with scala 2.12
spark-sql \
  --packages org.apache.hudi:hudi-spark-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:2.4.4 \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

Quick Start

Setup

We use the Flink Sql Client because it's a good quick start tool for SQL users.

Step.1 download Flink jar

Hudi works with Flink-1.13.x version. You can follow instructions here for setting up Flink. The hudi-flink-bundle jar is archived with scala 2.11, so it’s recommended to use flink 1.13.x bundled with scala 2.11.

Step.2 start Flink cluster

Start a standalone Flink cluster within hadoop environment. Before you start up the cluster, we suggest to config the cluster as follows:

-- Hudi yyds

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值