- 博客(3)
- 收藏
- 关注
原创 Hive的拉链表
每天都会有用户注册,产生新的用户信息,我们每天都需要将MySQL中的用户数据同步到Hive数据仓库中,在做用户分析时,需要对用户的信息做统计分析,例如统计新增用户的个数、总用户个数、用户性别分布、地区分布、运营商分布等指标。,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认用9999-12-31等最大值来表示最新状态。构建拉链表,通过时间标记发生变化的数据的每种状态的时间周期。
2023-08-25 16:12:27
56
1
原创 大数据开发面试总结(部分),希望可以帮到大家!
涵盖HDFS、MR、YARN、Flume、Sqoop、Hive、Zookeeper、数仓的一些概念。
2022-10-09 21:39:30
542
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人