大数据数据湖之hudi

最新推荐文章于 2024-08-28 11:46:48 发布

bigdata_wangzhe

最新推荐文章于 2024-08-28 11:46:48 发布

阅读量1.5k

点赞数 1

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/bigdata_wangzhe/article/details/115289029

版权

Hudi是一款针对大数据的实时分析工具，提供快速upsert、原子性操作、近实时摄取等功能。它支持通过Spark Shell进行操作，如设置表名、插入、查询、修改、增量和时间点查询。Hudi在处理流式数据、摄取RDBMS和NoSQL数据、以及与Kudu和HBase等数据库对比时展现出优势，特别适合需要近实时分析的场景。

摘要由CSDN通过智能技术生成

hudi介绍

Hudi将带来流式处理大数据，提供新数据集，同时比传统批处理效率高一个数据量级。
在这里插入图片描述

特性

（1）快速upsert,可插入索引
（2）以原子方式操作数据并具有回滚功能
（3）写入器之间的快照隔离
（4）savepoint用户数据恢复的保存点
（5）管理文件大小，使用统计数据布局
（6）数据行的异步压缩和柱状数据
（7）时间轴数据跟踪血统

通过Spark-shell快速开始

Spark-shell启动

spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本好需要和spark版本对应，这里都是2.4.5。

[root@hadoop102 hudi]# spark-shell --packages org.apache.spark:spark-avro_2.11:2.4.5 --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' --jars /opt/module/hudi/packaging/hudi-spark-bundle/target/hudi-spark-bundle_2.11-0.6.0-SNAPSHOT.jar

设置表名

设置表名，基本路径和数据生成器

scala> import org.apache.hudi.QuickstartUtils._
import org.apache.hudi.QuickstartUtils._

scala> import scala.collection.JavaConversions._
import scala.collection.JavaConversions._

scala> import org.apache.spark.sql.SaveMode._
import org.apache.spark.sql.SaveMode._

scala> import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceReadOptions._

scala> import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.DataSourceWriteOptions._

scala> import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.config.HoodieWriteConfig._

scala> val tableName = "hudi_trips_cow"
tableName: String = hudi_trips_cow

scala> val basePath = "file:///tmp/hudi_trips_cow"
basePath: String = file:///tmp/hudi_trips_cow

scala> val dataGen = new DataGenerator
dataGen: org.apache.hudi.QuickstartUtils.DataGenerator = org.apache.hudi.QuickstartUtils$DataGenerator@5cdd5ff9

插入数据

新增数据，生成一些数据，将其加载到DataFrame中，然后将DataFrame写入Hudi表

scala> val inserts = convertToStringList(dataGen.generateInserts(10))
scala> val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
scala> df.write.format("hudi").
     |   options(getQuickstartWriteConfigs).
     |   option(PRECOMBINE_FIELD_OPT_KEY, "ts").
     |   option(RECORDKEY_FIELD_OPT_KEY, "uuid").
     |   option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
     |   option(TABLE_NAME, tableName).
     |   mode(Overwrite).
     |   save(basePath)

Mode(overwrite)将覆盖重新创建表（如果已存在）。可以检查/tmp/hudi_trps_cow 路径下是否有数据生成。

[root@hadoop102 ~]# cd /tmp/hudi_trips_cow/
[root@hadoop102 hudi_trips_cow]# ls
americas  asia

查询数据

scala> val tripsSnapshotDF = spark.
     |   read.
     |   format("hudi").
     |   load(basePath + "/*/*/*/*")
scala> tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot

最低0.47元/天解锁文章

bigdata_wangzhe

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据数据湖之hudi

hudi介绍Hudi将带来流式处理大数据，提供新数据集，同时比传统批处理效率高一个数据量级。特性（1）快速upsert,可插入索引（2）以原子方式操作数据并具有回滚功能（3）写入器之间的快照隔离（4）savepoint用户数据恢复的保存点（5）管理文件大小，使用统计数据布局（6）数据行的异步压缩和柱状数据（7）时间轴数据跟踪血统通过Spark-shell快速开始Spark-shell启动spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-
复制链接

扫一扫

专栏目录