Hudi学习二:spark-shell操作Hudi

一、搭建执行hudi的平台

1.1、整体软件架构

1.2、安装Hadoop(当前环境是hadoop2.7)............

1.3、安装 Spark(当前环境是3.x)

        第一步、安装Scala-2.12.10

##解压scala
tar -zxvf scala-2.12.10.tgz -C /opt/module

##设置Scala的环境变量
vim /etc/profile

###添加如下
#SCALA_HOME
export SCALA_HOME=/opt/module/scala-2.12.10
export PATH=$PATH:$SCALA_HOME/bin

        查看Scala是否安装成功

         第二步、修改spark的配置文件

##解压spark包spark-3.0.0-bin-hadoop2.7.tgz
tar -zxvf spark-3.0.0-bin-hadoop2.7.tgz -C /opt/module

##修改conf/spark-env.sh
##添加如下
JAVA_HOME=/opt/module/jdk1.8.0_144
SCALA_HOME=/opt/module/scala-2.12.10

HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

        第三步、本地模式启动spark-shell读取hdfs数据

bin/spark-shell local[2]

 1.4、测试hudi-0.9.0

        编译好的hudi下载

链接:https://pan.baidu.com/s/11hhmyZCiQxNRTv-ND_-Chw 
提取码:bio5 
./hudi-cli.sh

 二、先使用spark-shell操作

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用maven对hudi进行构建并与spark集成的步骤: 1. 下载hudi源码 可以从hudi的官方github仓库中下载源码,链接为:https://github.com/apache/hudi 2. 构建hudi 进入hudi源码目录,使用以下命令进行构建: ``` mvn clean package -DskipTests -Dspark.version=3.1.1 -Dscala-2.12 ``` 其中,-DskipTests表示跳过测试,-Dspark.version指定spark版本,-Dscala-2.12指定scala版本。 构建完成后,会在hudi的target目录下生成hudi-xxx.jar包。 3. 将hudi与spark集成 将hudi-xxx.jar包加入到spark的classpath中,可以通过以下命令进行添加: ``` export SPARK_DIST_CLASSPATH=$(hadoop classpath):/path/to/hudi-xxx.jar ``` 其中,/path/to/hudi-xxx.jar需要替换为hudi-xxx.jar包的实际路径。 4. 使用spark-shell操作hudi 启动spark-shell,运行以下命令,可以创建一个hudi表: ``` import org.apache.spark.sql.SaveMode import org.apache.hudi.QuickstartUtils._ val tableName = "hudi_test" val basePath = "/tmp/hudi_test" val dataGen = new DataGenerator val inserts = dataGen.generateInserts(10) val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2)) df.write.format("org.apache.hudi"). options(getQuickstartWriteConfigs). option(PRECOMBINE_FIELD_OPT_KEY, "ts"). option(RECORDKEY_FIELD_OPT_KEY, "uuid"). option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath"). option(TABLE_NAME, tableName). mode(SaveMode.Append). save(basePath) ``` 运行以上命令后,会在/tmp/hudi_test目录下创建一个hudihudi_test。 接下来,可以使用spark-shell的API对hudi表进行操作,例如: ``` import org.apache.spark.sql.functions._ val df = spark.read.format("org.apache.hudi"). load("/tmp/hudi_test/*/*/*/*") df.show() ``` 以上命令会读取hudi_test表的数据,并展示结果。 至此,使用maven对hudi进行构建并与spark集成的步骤结束,可以使用spark-shellhudi进行操作了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值