数据同步策略(全量、增量、新增及变化、特殊同步策略)

文章讲述了在大数据环境中,数据从MySQL通过sqoop同步到HDFS,然后到ODS层的过程。同步策略包括全量同步、增量同步、新增及变化同步,以及针对特殊不变数据的处理。首日数据装载通常需全量同步,而用户行为数据则无此需求。维度表常采用每日全量同步,而对于如地区表等不变数据,只需一次性存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(MySQL中的业务数据通过sqoop同步到HDFS上,HDFS再同步到ODS层。)

数据同步 策略的类型包括: 全量同步、增量同步、新增及变化同步、特殊情况

  • 全量表: 存储 完整 的数据。
  • 增量表:存储 新增加的数据 。
  • 新增及变化表: 存储新增加的数据和变化的数据。
  • 特殊表: 不变化的数据, 只需要存储一次 。

up-29a827d23ce20932ec2858bbbe2c9fd77db.png

全量表有一个特殊的场景是一定要用的,就是 业务数据第一次被加载到ODS层的时候要用全量同步。

业务数据装载分为首日数据装载和每日数据装载,首日数据装载就是第一次装载业务数据的时候,因为业务数据一开始就有,所以第一次加载到ODS层要全部加载。每日数据装载就是平时新产生新修改等的数据,所以可以根据场景选择其他的同步策略。

用户行为数据没有首日数据装载这一说,因为用户行为数据没有历史数据,一开始是没有数据的,所以不用考虑首日跟每日这点。

一般情况下,维度表都是用每日全量同步,因为维度表中的数据少,而且会有变化。

up-d67056ef48b38734854d5c69efe323980f7.png

up-e2af44083b8e843c1335f372ba2d04ba509.png

特殊策略

某些特殊的表,可不必遵循上述同步策略。例如某些不会发生变化的表(地区表,省份表,民族表)可以只 存一份固定值。

分析表同步策略

在生产环境,个别小公司,为了简单处理,所有表全量导入。

中大型公司,由于数据量比较大,还是严格按照同步策略导入数据。

up-4fd19236433298606dce6e23ac9a27dab5e.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值