使用spark查询hudi表

最新推荐文章于 2024-05-09 14:31:24 发布

王富贵儿、

最新推荐文章于 2024-05-09 14:31:24 发布

阅读量1.4k

点赞数

分类专栏：数据库大数据文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/qq_18239343/article/details/123483028

版权

6 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

查询数据

初始化环境

source /opt/client/bigdata_env

source /opt/client/Hudi/component_env
启动客户端

spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-memory 12g --executor-cores 4 --num-executors 50 --conf spark.executor.memoryOverhead=4096
导入包

import org.apache.hudi.QuickstartUtils._import scala.collection.JavaConversions._import org.apache.spark.sql.SaveMode._import org.apache.hudi.DataSourceReadOptions._import org.apache.hudi.DataSourceWriteOptions._import org.apache.hudi.config.HoodieWriteConfig._
查询

val org_reader = spark.read.format("org.apache.hudi").load("hdfs://hacluster/hudi/default/o_org")org_reader.registerTempTable("hudi_o_org")

spark.sql("select count(*) from hudi_o_org").show()

spark.sql("desc hudi_o_org").show(200,false)

关注

专栏目录