hudi系列- mor表写过程

整体流程

 | pk1,pk4 | ===\     /=== | bucket assigner1 | ===\     /=== | write task1(pk1,pk2) |
              shuffle(by PK)                    shuffle(by bucket ID)
 | pk2,pk3 | ===/     \=== | bucket assigner2 | ===/     \=== | write task2(pk3,pk4) |
  1. 流中的数据先根据主键进行shuffle,由于主键的唯一性,所以同一记录后续的变更都会分配到相同的bucket assigner中
  2. bucket assigner确定每个主键的物理存储位置(分区+fileId),每个主键的位置保存在状态索引ValueState中
  3. 数据确定了fileId(buckId)后,再进行一次shuffle,因为相同fileId的数据将会写到同一个数据文件,应由同一write task处理
  4. write task接收到并缓存数据,达到阀值或chekcpoint时将数据写到磁盘

三、桶分配

基于状态索引的tagLocation过程,即确定第条记录应该写到哪个fileId。

  1. MOR表的append和upsert流程一致,append的记录不会把location保存到索引
  2. 对于upsert的情况,当记录修改时变了分区,需要将旧分区中的原记录删除,同时在新分区分配新的location

如何为记录分配Location?
每个分区下的桶数量为是bucket_assigner算子的并行度,每个桶始终由多个assigner中固定的一个生成和分配,桶(fileId)与assigner之间存在映射关系,通过fileId可以判断是否属于该assigner.
例如要为记录<id1,parition1>分配bucket,id1经shuffle后由assigner1处理,流程如下:

这个过程做了小文件优化,避免产生过多的小文件(重用fileId),判断文件已满参考WriteProfile</id1,parition1>

  • smallFileAssignMap:缓存着当前assigner每个分区下的较久前创建的小文件信息
  • newFileAssignStates: 缓存着当前assigner每个分区下的最近创建的文件信息
    两个缓存对象都会在checkpoint时清空

使用注意:

  • 全理设置并度
  • 由于使用了flink state,须合理设置ttl和状态后端

四、写数据

  1. 每次checkpoint时都会把缓存中数据刷盘,在之前如果缓存中的数据达到WRITE_BATCH_SIZEWRITE_TASK_MAX_SIZE也会触发刷盘
  2. 在持续流式写过程中,StreamWriteOperatorCoordinator作为写协作器,协调各个write task,负责初始化和推进instant、调度compaction和clustering、同步hive
  3. 所有write task都会一直等待协作器创建新的instant成功才会执行写操作(通过扫描文件系统来发现新的instant)。
  4. 同一个checkpoint间隔中发生多次写产生的文件,都具有相同的instant。

参考:hudi系列- mor表写过程 - 知乎

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用hudi-spark-client写数据到hudi表的步骤如下: 1. 首先,创建一个SparkSession对象,并配置相关的Spark和Hudi属性。例如: ```scala val spark = SparkSession.builder() .appName("HudiSparkClientExample") .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .config("spark.sql.hive.convertMetastoreParquet", "false") .config("spark.sql.sources.partitionColumnTypeInference.enabled", "false") .config("spark.sql.hive.verifyPartitionPath", "false") .config("spark.hadoop.hive.exec.dynamic.partition.mode", "nonstrict") .config("spark.hadoop.hive.exec.dynamic.partition", "true") .config("spark.sql.warehouse.dir", "hdfs://localhost:9000/user/hive/warehouse") .config("spark.sql.catalogImplementation", "hive") .enableHiveSupport() .getOrCreate() ``` 2. 创建一个DataFrame对象,用于存储要写入Hudi表的数据。 ```scala val data = Seq( (1, "John Doe", 25), (2, "Jane Smith", 30) ) val df = spark.createDataFrame(data).toDF("id", "name", "age") ``` 3. 使用`HoodieSparkSqlWriter`将DataFrame写入Hudi表。指定要写入的表名、要使用的主键列以及要使用的分区列。 ```scala df.write .format("org.apache.hudi") .option("hoodie.table.name", "my_hudi_table") .option("hoodie.datasource.write.precombine.field", "id") .option("hoodie.datasource.write.recordkey.field", "id") .option("hoodie.datasource.write.partitionpath.field", "age") .mode(SaveMode.Append) .save("hdfs://localhost:9000/path/to/hudi_table") ``` 4. 最后,关闭SparkSession对象。 ```scala spark.stop() ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值