数据仓库的同步策略

目录

同步策略

四种表

20张表分别属于什么分区策略


数据的同步主要得益于:数据仓库的同步策略,它的同步策略有四种。

同步策略

全量同步策略:

每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表数据量不大,且每日都有新数据插入,也会有旧数据修改的场景。

例如:编码字典表,且每天即会有数据插入,也会有旧数据的修改的场景。

增量同步策略:

每日增量, 就是每天存储一份增量数据,作为一个分区。适用于数据量大,且每天只会有新数据插入的场景。

例如:退单表,订单状况表,支付流水表,订单详情表,活动与订单关联表,商品评论表。

新增及变化策略:

每日新增及变化,就是存储创建时间和操作时间都是今天的数据。使用场景:表的数据量大,既有新增,又会有变化。

例如:用户表(更适合用拉链表来实现),订单表,优惠券领用表。

 拉链表:缓慢变化表。到一个特定时间,修改字段。

特殊策略:

只需要导入一次。(只能有一个固定值,比如:省份,地区表,)

四种表

全量表:存储完整的数据。数据量不大的表(有变化)

增量表:存储新增加的数据。数据没有修改,但是会追加的情况

新增及变化表:存储新增加的数据和变化的数据。数据量比较大,修改与增加

特殊表:只需要存储一次。

20张表分别属于什么分区策略

全量表      SPU商品表(spu_info) SKU商品表(sku_info) 商品一级分类表(base_category1)商品二级分类表(base_category2)商品三级分类表(base_category3)品牌表(base_trademark) 编码字典表(base_dic)   活动参与商品表(activity_sku)   加购表(cart_info)  商品收藏表(favor_info) 优惠券表(coupon_info) 优惠规则表(activity_rule
 增量表       订单状态表(order_info)退单表(order_refund_info) 活动订单关联表(activity_order) 支付流水表(payment_info)商品评论表(comment_info)       
新增及变化表     活动表(activity_info)  优惠券领用表(coupon_use)优惠规则表(activity_rule用户表(user_info)        
 特殊表 省份表(base_province) 地区表(base_region  时间表(date_info假期表(holiday_info) 假期年表(holiday_year)       

                                                                                                                                                                                      

                                                                                                             

         

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值