使用Spark操作Hudi表详细教程_spark读取hudi(1)

最新推荐文章于 2024-08-29 21:27:55 发布

2401_84181731

最新推荐文章于 2024-08-29 21:27:55 发布

阅读量1k

点赞数 26

分类专栏： 2024年程序员学习文章标签： spark javascript 大数据

本文链接：https://blog.csdn.net/2401_84181731/article/details/137505160

版权

本文提供了一步步的教程，演示如何使用Spark对Hudi表进行数据修改、插入覆盖、删除以及使用Spark SQL进行查询操作。详细解释了Hudi的写入、查询和删除过程，并提供了启动Hudi Spark SQL的配置方法。同时，还涵盖了Kerberos和权限配置的相关步骤。

摘要由CSDN通过智能技术生成

发现只取出了最近插入/修改后的数据。

修改数据

import org.apache.spark.sql._
import org.apache.spark.sql.types._
val fields = Array(
StructField(“id”, IntegerType, true),
StructField(“name”, StringType, true),
StructField(“price”, DoubleType, true),
StructField(“ts”, LongType, true)
)
val simpleSchema = StructType(fields)
val data = Seq(Row(2, “a2”, 400.0, 2222L))
val df = spark.createDataFrame(data, simpleSchema)

df.write.format(“hudi”).
option(PRECOMBINE_FIELD_OPT_KEY, “ts”).
option(RECORDKEY_FIELD_OPT_KEY, “id”).
option(TABLE_NAME, “hudi_mor_tbl_shell”).
option(TABLE_TYPE_OPT_KEY, “MERGE_ON_READ”).
mode(Append).
save(“hdfs:///hudi/hudi_mor_tbl_shell”)

验证方法使用普通查询。

Insert overwrite

import org.apache.spark.sql._
import org.apache.spark.sql.types._
val fields = Array(
StructField(“id”, IntegerType, true),
StructField(“name”, StringType, true),
StructField(“price”, DoubleType, true),
StructField(“ts”, LongType, true)
)
val simpleSchema = StructType(fields)
val data = Seq(Row(99, “a99”, 20.0, 900L))
val df = spark.createDataFrame(data, simpleSchema)

df.write.format(“hudi”).
option(OPERATION.key(),“insert_overwrite”).
option(PRECOMBINE_FIELD