1 数据同步问题
Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。
例如:MySQL中有一张用户表:tb_user,每个用户注册完成以后,就会在用户表中新增该用户的信息.

由于每天都会有用户注册,产生新的用户信息,那么每天都需要将MySQL中的用户数据同步到Hive数据仓库中.
假如在1号已经在hive中创建了表并拉取了数据,但是在2号时MySQL中新增2条用户注册数据,并且有1条用户数据发生更新.

那么我们需要对2号的数据进行同步到hive中,新增的数据会直接加载到Hive表中,但是更新的数据如何存储在Hive表中?
方案一:直接覆盖
使用2号的数据 直接将1号的数据覆盖掉
优点:实现最简单,使用起来最方便

本文介绍了在Hive中解决数据同步问题的一种方法——拉链表。当数据需要更新时,直接覆盖会导致历史状态丢失,而每天创建新表则会占用大量存储。拉链表通过标记状态生命周期,记录变化数据,提供按时间范围查询的能力。文章详细阐述了拉链表的实现原理,包括增量采集、数据合并与覆盖写入,并给出了数据准备和操作示例。
最低0.47元/天 解锁文章
7733

被折叠的 条评论
为什么被折叠?



