数据同步策略

数据同步策略的类型包括:全量表、增量表、新增及变化表

全量表:存储完整的数据;数据量不大的表(有变化)
增量表:存储新增加的数据;数据没有修改,但是会追加的情况
新增及变化表:存储新增加的数据和变化的数据;数据量比较大,修改与增加
特殊表:只需要存储一次
1、全量同步策略
每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区

适用于表数据量不大,且每天既会有新数据插入,也会有旧数据的修改的场景

例如:编码字典表、品牌表、商品三级分类、商品二级分类、商品一级分类、优惠规则表、活动表、活动参与商品表、加购表、商品收藏表、优惠券表、SKU商品表、SPU商品表

2、增量同步策略
每日增量,就是每天存储一份增量数据,作为一个分区

适用于表数据量大,且每天只会有新数据插入的场景

例如:退单表、订单状态表、支付流水表、订单详情表、活动与订单关联表、商品评论表

3、新增及变化策略
每日新增及变化,就是存储创建时间和操作时间都是今天的数据

适用于表数据量大,既会有新增,又会有变化

例如:用户表(更适合用于拉链表来实现)、订单表、优惠券领用表

重点关注:这个表里面的时间字段,如果说没有时间,考虑全量或者是特殊策略;如果说有时间,create_time(这个数据的记录时间);如果只有这个时间,是一个增量;如果出了这个时间,还有其他时间,action_time/update_time…(修改时间),可以采用新增与变化的策略

4、特殊策略
某些特殊的维度表,可不必遵循上述同步策略

客观世界维度

没变化的客观世界的维度(比如性别、地区、民族、政治成分、鞋子尺码)可以只存一份固定值

日期维度

日期维度可以一次性导入一年或若干年的数据

地区维度

省份表、地区表

离线数仓的数据大部分采用T+1,0点之后(15-30分钟)才开始同步数据,定时调度任务,使用一些工具(crontab、azkaban)
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据同步策略配置的功能设计应该包括以下几个方面: 1. 同步方式:用户可以选择不同的数据同步方式,比如增量同步、全量同步、定时同步等。 2. 同步频率:用户可以设置同步频率,比如实时同步、每日同步等,以满足不同的数据同步需求。 3. 同步节点:用户可以选择需要同步的节点,以确保数据在不同的节点之间保持一致。 4. 同步顺序:用户可以设置数据同步的顺序,以保证数据同步的正确性和完整性。 5. 同步方式:用户可以选择同步方式,比如同步、异步、半同步等,以满足不同的数据同步需求。 6. 异常处理:用户可以设置异常处理策略,比如重试、跳过、报警等,以确保数据同步过程中的异常情况得到及时处理。 7. 可视化界面:为了方便用户对数据同步策略进行配置和管理,需要提供一个直观、易用的可视化界面,方便用户进行操作和管理。 8. 日志记录:为了方便用户对数据同步过程进行跟踪和排查问题,需要记录数据同步过程中的日志信息,包括同步时间、同步节点、同步状态等。 9. 安全性设计:为了保证数据同步策略的安全性和可靠性,需要考虑数据传输的加密和压缩,以及用户权限管理等方面的设计。 综上所述,数据同步策略配置功能设计应该全面、实用、易用,并且具有一定的安全性和稳定性,以满足用户对数据同步的不同需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值