离线数仓
离线数仓
青云游子
大数据开发工程师
展开
-
【hive经典指标,离线数仓指标,ADS层指标分析】最近7日内连续3日下单用户数
1.ODS获取用户登录信息2.DIM3.DWD4.DWS5.ADS6.SQL。原创 2023-08-03 21:32:40 · 924 阅读 · 0 评论 -
数据仓库-拉链表
拉链表的意义就在于能够更加高效的保存维度信息的历史状态。原创 2023-06-15 13:52:40 · 58 阅读 · 0 评论 -
数据仓库表备份策略
在脚本开始的时候,先判断有没有成功的备份表,如果有,就恢复备份的数据到原表,如果没有,就就创建一个备份表,进行备份数据,当备份完成之后,把表名改成成功表,然后再去执行每日装载。如果害怕拉链表等在插入数据的时候,脚本执行失败,导致表中数据,只有2条了,但是下次计算,还需要查询原表数据,就会丢失数据,解决方法如下。在所有表都完成之后,备份最新分区的数据,保留7天。完成之后,删除备份表。原创 2023-06-08 14:15:41 · 90 阅读 · 0 评论 -
关于离线数仓
可以把ODS的用户增量表全部算一遍,不要分区条件(where),用user_id分组,取最大日期的数据,放到9999分区,就是最新的数据。9999分区只存状态没有完成的数据,目的是为了在查询状态没有完成的数据时,能直接查询出来,而不要加复杂的过滤条件。只有ADS层的表,每次insert数据,都需要把之前的数据都查出来union,因为ADS层的表没有分区。如果用户拉链表9999分区丢失了,怎么找回?下单时间 支付时间 收货时间。原创 2023-06-07 19:36:38 · 38 阅读 · 0 评论