Hudi学习二：spark-shell操作Hudi

Hub-Link

已于 2022-05-29 22:10:51 修改

阅读量2.3k

点赞数

分类专栏：数据湖文章标签：大数据

于 2022-05-22 21:34:06 首次发布

本文链接：https://blog.csdn.net/NC_NE/article/details/124916527

版权

一、搭建执行hudi的平台

1.1、整体软件架构

1.2、安装Hadoop(当前环境是hadoop2.7)............

1.3、安装 Spark（当前环境是3.x）

第一步、安装Scala-2.12.10

##解压scala
tar -zxvf scala-2.12.10.tgz -C /opt/module

##设置Scala的环境变量
vim /etc/profile

###添加如下
#SCALA_HOME
export SCALA_HOME=/opt/module/scala-2.12.10
export PATH=$PATH:$SCALA_HOME/bin

查看Scala是否安装成功

第二步、修改spark的配置文件

##解压spark包spark-3.0.0-bin-hadoop2.7.tgz
tar -zxvf spark-3.0.0-bin-hadoop2.7.tgz -C /opt/module

##修改conf/spark-env.sh
##添加如下
JAVA_HOME=/opt/module/jdk1.8.0_144
SCALA_HOME=/opt/module/scala-2.12.10

HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

第三步、本地模式启动spark-shell读取hdfs数据

bin/spark-shell local[2]

1.4、测试hudi-0.9.0

编译好的hudi下载

链接：https://pan.baidu.com/s/11hhmyZCiQxNRTv-ND_-Chw 
提取码：bio5

./hudi-cli.sh

二、先使用spark-shell操作

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hub-Link

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Hudi学习二：spark-shell操作Hudi

spark-shell操作hudi
复制链接

扫一扫

专栏目录

湖仓一体介绍及spark操作hudi

chenlei0520的博客

02-08

1099

湖仓一体介绍及spark操作hudi

spark&&zookeeper集群搭建

kxd328的博客

05-02

275

1.安装JDK 二、安装spark 1.下载spark安装包 spark官网下载 http://spark.apache.org/downloads.html 2.上传解压spark rz //上传 tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz -C /export/servers/ //解压到/export/servers/ 目录下...

参与评论您还未登录，请先登录后发表或查看评论

大数据hudi之集成spark:spark-shell 方式

weixin_43597208的博客

08-17

295

现在再次查询数据将显示更新的行程数据。查找以前提交中相同的_hoodie_record_keys在该表的_hoodie_commit_time、rider、driver字段中的变化。我们希望类似hive的 "insert overwrite "操作，以忽略现有数据，只用提供的新数据创建一个提交。注意：该表有三级分区（区域/国家/城市），在0.9.0版本以前的hudi，在load中的路径需要按照分区目录拼接"新增数据，生成一些数据，将其加载到DataFrame中，然后将DataFrame写入Hudi表。

2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi，已拿意向书

最新发布

2401_84160361的博客

05-05

814

有办法简化，可以将Hudi的配置加入到spark-defaults.conf配置文件中。通过这些设置，Hudi用户应该能够在指定的表路径下执行操作，并具有必要的HDFS和YARN权限，确保了对应用程序的顺利运行。2、分配给hudi用户以下目录的读写权限：/hdfs/hudi/t1，/tmp，/user/hudi。1、在Kerberos中创建hudi@PAULTECH.COM主体，并生成相应的keytab文件。2、在执行kinit之后，确保hudi用户具有相应的权限以执行相关操作。发现只有新增的这一条数据。

使用Spark操作Hudi表详细教程_spark sql操作hudi，OMG，学它

2401_84170190的博客

04-13

475

编译输出的Spark Hudi依赖位于hudi/packaging/hudi-spark-bundle/target，将其中的hudi-spark3.x-bundle_2.12-0.xx.x.jar复制走备用。或者是在spark-defaults.conf中增加spark.hadoop.yarn.timeline-service.enabled=false。接着将Hudi编译之后的hudi-spark3.x-bundle_2.12-0.xx.x.jar复制到${SPARK_HOME}/jars目录中。

spark-3.0.0-bin-hadoop2.7.tgz

07-17

spark-3.0.0-bin-hadoop2.7.tgz 官网下载不了的，需要资源的，可以到这里下载哦

Hudi学习03 -- Spark操作hudi（Spark-shell 和 PySpark）

patrick_big_data的博客

01-03

2267

spark操作hudi spark-shell pyspark

Hudi集成Spark（一）Spark Shell方式

weixin_45417821的博客

01-11

839

查找以前提交中相同的_hoodie_record_keys 在该表的_hoodie_commit_time、rider、driver 字段中的变化。我们希望类似 hive 的 "insert overwrite "操作，以忽略现有数据，只用提供的新数据创建一个提交。查询特定时间点的数据，可以将 endTime 指向特定时间，beginTime 指向 000（表示最早提交时间）新增数据，生成一些数据，将其加载到 DataFrame 中，然后将 DataFrame 写入 Hudi 表。

scala-2.12.10.tgz

12-24

scala linux 安装包

hudi-spark-bundle.jar

04-13

hudi:0.10.1 spark:3.1.3 scala:2.12 hadoop:3.1.0 hive:3.1.0

hudi-spark3.2-bundle_2.12-0.11.0.jar

06-28

配合文档

hudi-spark3-bundle_2.12-0.10.0-SNAPSHOT.jar

11-27

spark读取hudi，hudi版本0.10

hudi-hadoop-mr-bundle-0.11.0.jar

06-28

hudi-hadoop-mr-bundle-0.11.0.jar 配合文档

hudi-flink1.17-bundle-0.14.0-sources.jar

12-22

这是Flink1.17、hudi 0.14 、hadoop 3.3.4、hive 3.1.3、Spark 3.2.3 编译出来的版本

sparkShell操作hudi

寒暄的博客

05-10

1161

使用sparkShell连接hudi [root@ha1 bin]#spark-shell \ --packages org.apache.hudi:hudi-spark-bundle_2.11:0.5.3,org.apache.spark:spark-avro_2.11:2.4.4,org.apache.avro:avro:1.8.2 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' 创建表 import or

Spark环境搭建

Joker_Jiang3的博客

07-03

814

Spark环境搭建一、local本地模式 1.下载spark压缩包spark-3.0.1-bin-hadoop2.7.tgz。地址： http://archive.apache.org/dist/spark/ 2.解压并重命名 # 解压到指定路径 tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/modules/ # 重命名 mv spark-3.0.1-bin-hadoop2.7 spark-3.0.1 3.测试二、Standalone-独立集群模式

windows10环境安装spark-3.0.3-bin-hadoop2.7

TF666666的博客

09-01

9334

@[TOC]（windows10环境安装spark-3.0.3-bin-hadoop2.7和遇到的问题）前言星光不问赶路人，时光不负有心人。刚刚接触spark，安装环境就暗了两天，目前遇到的问题，下面一一会有说明，希望能给到大家帮助，其中会用到其他人的博客，有的可能忘记标记引用，如看到，可以联系本人，进行及时更改一、spark安装需要安装的相关的？ 1.JDK安装（不会的网上有很多）本人安装的是Java 1.8.0_291 2.下载Hadoop_2.7.1 3.下载下载hadooponwindows

Spark环境安装与部署

Timber_kito的博客

06-05

830

部署环境你需要jdk环境，详细操作流程参见以下文章 https://www.timberkito.com/?p=12 两台CentOS系统，推荐配置内存2GB以上一、从spark官方获取spark安装包本案例使用spark-3.0.1为例下载地址 https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz 1.使用wget 命令获取spark安装包 mkdir /usr/spar

Spark环境搭建教程

xgb2018的博客

03-27

4231

Spark环境搭建 Spark Local本地模式 Standalone-独立集群 Standalone-HA Spark-On-Yarn Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

使用maven对hudi进行构建（spark3.1，scala-2.12），编译完成后与spark集成，集成后使用spark-shell操作hudi，将spark-shell启动使用spark-shell运行

04-04

以下是使用maven对hudi进行构建并与spark集成的步骤： 1. 下载hudi源码可以从hudi的官方github仓库中下载源码，链接为：https://github.com/apache/hudi 2. 构建hudi 进入hudi源码目录，使用以下命令进行构建： ``` mvn clean package -DskipTests -Dspark.version=3.1.1 -Dscala-2.12 ``` 其中，-DskipTests表示跳过测试，-Dspark.version指定spark版本，-Dscala-2.12指定scala版本。构建完成后，会在hudi的target目录下生成hudi-xxx.jar包。 3. 将hudi与spark集成将hudi-xxx.jar包加入到spark的classpath中，可以通过以下命令进行添加： ``` export SPARK_DIST_CLASSPATH=$(hadoop classpath):/path/to/hudi-xxx.jar ``` 其中，/path/to/hudi-xxx.jar需要替换为hudi-xxx.jar包的实际路径。 4. 使用spark-shell操作hudi 启动spark-shell，运行以下命令，可以创建一个hudi表： ``` import org.apache.spark.sql.SaveMode import org.apache.hudi.QuickstartUtils._ val tableName = "hudi_test" val basePath = "/tmp/hudi_test" val dataGen = new DataGenerator val inserts = dataGen.generateInserts(10) val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2)) df.write.format("org.apache.hudi"). options(getQuickstartWriteConfigs). option(PRECOMBINE_FIELD_OPT_KEY, "ts"). option(RECORDKEY_FIELD_OPT_KEY, "uuid"). option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath"). option(TABLE_NAME, tableName). mode(SaveMode.Append). save(basePath) ``` 运行以上命令后，会在/tmp/hudi_test目录下创建一个hudi表hudi_test。接下来，可以使用spark-shell的API对hudi表进行操作，例如： ``` import org.apache.spark.sql.functions._ val df = spark.read.format("org.apache.hudi"). load("/tmp/hudi_test/*/*/*/*") df.show() ``` 以上命令会读取hudi_test表的数据，并展示结果。至此，使用maven对hudi进行构建并与spark集成的步骤结束，可以使用spark-shell对hudi进行操作了。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交