前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun
前言
简单总结如何利用Hive增量查询Hudi表
同步Hive
我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name
命名的Hive表。 例如,如果table name = hudi_tbl
,我们得到
hudi_tbl
实现了由 HoodieParquetInputFormat
支持的数据集的读优化视图,从而提供了纯列式数据。
hudi_tbl_rt
实现了由 HoodieParquetRealtimeInputFormat
支持的数据集的实时视图,从而提供了基础数据和日志数据的合并视图。
上面的两条对比摘自官网,这里解释一下:其中实时视图_rt
表只有在MOR表同步Hive元数据时才会有,并且hudi_tbl
在表类型为MOR时并且为配置skipROSuffix=true
时才为读优化视图,当为false(默认为false)时,读优化视图应该为hudi_tbl_ro
,当表类型为COW时,hudi_tbl
应该为实时视图,所以官网对这一块解释有一点问题大