大数据ETL增量采集、全量采集区别

数据采集指的是是数据库1(业务系统)的1张表A,采集到数据库2(数据中台)的1张表B(B表为数据中台基础模型,必须要有时间分区字段,p_day或者p_mon)。

有以下2种情况:

1、A表如果是账期表,表为A_20231215,那一般直接按照账期汇聚采集到B表的p_day=20231215,存的数据就是A_20231215

2、A表如果非账期表,表名为A_info这种,就要看表里是不是有类似账期的字段能做增量采集,例如A_info里有个fee_day计费日期,数据是20231215-20240124

        (1)那么按照fee_day增量采集的话,这个p_day=fee_day,B表里的数据是一天的数据;

        (2)要进行全量采集的话就是p_day=‘task_id’,B表里数据是fee_day=20231215到20240124的全量数据。

日全量:一天的表B对应存全量的表A数据,不断累积,这个量会很大,重复存储,默认存储7天;

日增量:一天的表B对应存一天的表A数据,默认存储60天。

月表同理。

ETL(抽取、转换、加载)是数据仓库中常用的数据处理过程。在ETL过程中,增量加载和全量加载是其中两种常见的方式。 增量加载是指只将新增或有变化的数据加载到目标数据仓库中。优点是可以减少数据处理的时间和资源消耗,提高数据加载效率。相比于全量加载,增量加载可以实现定期或实时更新数据,保证数据的实时性。此外,增量加载可以降低处理错误和重复操作的风险,节省存储空间。 然而,增量加载也存在一些缺点。首先,增量加载需要通过记录变更数据的方式进行,这涉及到数据的比对和识别,增加了数据处理的复杂性。其次,增量加载可能会导致数据不一致,例如在某个时间点进行数据分析时,新增数据可能还未加载到目标数据仓库中,从而影响分析结果的准确性。同时,由于增量加载只针对变更的数据,若需要获取完整的历史数据,则需要额外的处理。 相比之下,全量加载是将所有数据都重新加载到目标数据仓库中。全量加载的优点是可以保证数据的一致性和完整性,不会遗漏任何数据。此外,全量加载也更加简单,不需要进行数据比对和识别,减少了处理逻辑的复杂性。 然而,全量加载的缺点在于它需要处理所有数据,无论是否有变化,这会导致较长的处理时间和资源消耗。同时,全量加载无法实现数据的实时更新,只能在特定时间点进行数据加载和更新。 根据实际需求,增量加载和全量加载可以结合使用。在数据需求较为实时并能容忍一定的数据延迟时,可以选择增量加载;而在对数据一致性和完整性要求较高的场景下,选择全量加载更为适合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值