Hive增量查询Hudi表

16 篇文章 1 订阅

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun

前言

简单总结如何利用Hive增量查询Hudi表

同步Hive

我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。 例如,如果table name = hudi_tbl,我们得到

hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图,从而提供了纯列式数据。
hudi_tbl_rt 实现了由 HoodieParquetRealtimeInputFormat 支持的数据集的实时视图,从而提供了基础数据和日志数据的合并视图。

上面的两条对比摘自官网,这里解释一下:其中实时视图_rt表只有在MOR表同步Hive元数据时才会有,并且hudi_tbl在表类型为MOR时并且为配置skipROSuffix=true时才为读优化视图,当为false(默认为false)时,读优化视图应该为hudi_tbl_ro,当表类型为COW时,hudi_tbl应该为实时视图,所以官网对这一块解释有一点问题大

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
HudiHive和Kafka都是目前非常流行的大数据技术。这三个技术可以很好地结合在一起,实现分布式数据处理和存储。以下是对每个技术的详细介绍及它们如何协同工作的说明。 HudiHudi是一个开源数据湖技术,它旨在实现数据批次的增量更新和实时查询。它支持Delta Lake和Hive,并提供了ACID事务、数据兼容性和高性能。Hudi可以通过在数据湖中的文件更新来实现数据的最新状态,并支持键值存储、时间旅行查询等功能。 HiveHive是一个流行的大数据查询和分析平台,它允许开发人员使用类似SQL的语言来访问Hadoop分布式文件系统中的数据。 Hive支持分布式查询和混合存储方式(文本、Parquet、ORC等)。Hive Query Language(HQL)是Hive中常用的查询语言。 Kafka: Kafka是一个流数据发布/订阅平台,它支持高吞吐量、低延迟的数据传输。它使用分布式发布/订阅机制来处理消息,并且能够自动将消息传递给下游的消费者。 Kafka对于高速数据处理、日志收集和事件处理非常有用。 Kafka可以进行消息持久化,并且可水平扩展。 这些技术的组合: HiveHudi可以很容易地结合起来。Hive可以使用Hudi存储数据,Hudi则可以支持事务性更新、增量更新和数据更改的版本控制。 Kafka可以作为HudiHive之间的消息队列,用于异步数据流传输,提升数据处理的效率。 Kafka提供了数据持久化和水平扩展,可以支持大量的数据发送。 综上所述,HudiHive和Kafka可以协作处理大数据的存储、分析和处理任务,这将有助于提高大数据处理的效率和准确性。由于这三个技术的快速发展和广泛使用,未来很可能会有更多的应用场景和扩展功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董可伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值