hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

肉装法师

已于 2022-03-21 13:14:46 修改

阅读量6.6k

点赞数

分类专栏： Hudi 文章标签： hive apache

于 2022-03-01 16:12:17 首次发布

本文链接：https://blog.csdn.net/weixin_41772761/article/details/123208447

版权

Hudi 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。
想利用hive查询hudi数据。

hudi 在hive中有两张表：
xxx_ro：历史（compact策略触发后能查询到的数据）
xxx_rt：实时

查询ro表发现更新数据未与历史数据合并
查询rt表为实时数据，但是无法使用count()

hudi在 hdfs以 log+parquet格式保存，更新数据存储至log
在这里插入图片描述

查看了官网的配置
在这里插入图片描述

      .option(DataSourceWriteOptions.ASYNC_COMPACT_ENABLE.key(),"true")
      .option(HoodieCompactionConfig.INLINE_COMPACT_TRIGGER_STRATEGY.key(),"NUM_OR_TIME")
      .option(HoodieCompactionConfig.INLINE_COMPACT_NUM_DELTA_COMMITS.key(), "3")
      .option(HoodieCompactionConfig.INLINE_COMPACT_TIME_DELTA_SECONDS.key(),"60")

尝试一下看看

2022-03-03
昨天试了spark-sql查 rt表报错

2022-03-03 09:33:45
直接更新时compact

上面配置就都不要了
在这里插入图片描述

测试ro表数据是“实时”更新数据

肉装法师

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表：xxx_ro：历史xxx_rt：实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据，但是无法使用count()hudi在 hdfs以 log+parquet格式保存，更新数据存储至log读取rt表时 compact log 和 parquet 所以显示实时更新数据可本人
复制链接

扫一扫