数据抽取常见的几种模式

常见的数据抽取模式有4种:全量覆盖抽取全量追加增量增量滚动

全量覆盖

例子:假设第一天源头库有100条数据,第二天源头库新增10条,源头库即110条。那么第一天抽取:目标库100条,第二天抽取会删除昨天抽取的100条,然后重新抽取,此时目标库也是110条。

优点:理解简单,数据质量好,适用于小数据量的表。

缺点:大数据量的时候,占用资源,且抽取速度慢。

结论:全量覆盖抽取,抽取的时刻始终和源库数据保持一致。覆盖是一个先删除后拷贝的过程。

全量追加

例子:第一天源头库有100条数据,第二天源头库新增10条,源头库即110条。那么第一天抽取:目标库100条,第二天会抽取源头库的110条数据,但是不会删除昨天的数据。所以第二天目标库的数据是210条。

优点:可以帮源头库存历史数据。 适用于源头表只存当天最新数据,有数的目标库可以把每天最新数据存储充当历史库。

缺点:对源头数据的质量要求极高,如果源头数据有问题,一旦抽取,无法修补。

结论:全量追加抽取,数量会比原来数据多。追加是一个不会删除的过程。

增量

例子:有一张订单表,有个字段为订单创建时间。现在该表有5月1号到5月6号数据共100条数据。那么执行增量抽取,假设增量字段为订单创建时间。那么第一次抽取:100条数据全部拷贝到有数,此时目标库100条数据。 第二次抽取:源头增加了10条数据,订单创建日期为5月7号。 此时有数会判断,目标库最大日期是5月6号,源库最大日期是5月7号。 有数会把源头大于5月6号,小于等于5月7号的数据拷贝进来(即为增加的10条),此时目标库数据为110日条。 第三次抽取:源头增加了10条数据,其中5条数据为5月7号,5条数据为5月8号数据。那么此时抽取:目标库最大日期是5月7号,源库最大日期是5月8号。 有数会把源头大于5月7号,小于等于5月8号的数据拷贝进来(即为增加的5条)。

优点:对数据增量部分处理,占资源小,适用于历史数据稳定的大数据量表。

缺点:设置复杂,不能更新历史数据,只能手工重跑。

结论:增量抽取,必须要有增量键。抽取会根据增量键确定增量数据部分。

增量滚动

增量滚动可以理解成一种特殊的增量抽取。在执行抽取的时候,会先把数据删除特定的时间范围。然后执行增量抽取的比较逻辑。

优点:可以定期回溯

缺点:设置复杂,不能更新历史数据,只能手工重跑。

结论:增量滚动抽取,必须要有增量键。抽取会先删除特定的时间范围,然后根据增量键确定增量数据部分。

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1. 数据中台和大数据平台是当前企业数字化转型的重要组成部分,市场技术发展状态非常活跃。随着云计算、大数据、人工智能等技术的不断发展和应用,数据中台和大数据平台的市场规模和应用范围也在不断扩大。目前,市场上的数据中台和大数据平台产品种类繁多,如阿里云MaxCompute、华为云FusionInsight、腾讯云TDSQL、AWS EMR等。 2. 数据集成是数据中台架构体系中非常重要的一环,它包括多种不同的模式,如ETL模式、ELT模式、CDC模式等。其中,ETL模式是最常见的一种,它将数据从源系统中抽取出来,经过清洗、转换和加载后加载到目标系统中。ELT模式则是将数据先加载到目标系统中,再进行清洗和转换。CDC模式则是实时地抽取源系统中的数据,并将变化的数据进行同步到目标系统中。 3. 数据中台架构体系应该包括以下几个层次:数据采集层、数据存储层、数据处理层、数据服务层和数据应用层。其中,数据采集层负责从各种数据源中采集数据,包括结构化数据和非结构化数据数据存储层负责对数据进行存储,包括数据仓库、数据湖等。数据处理层负责对数据进行清洗、转换和计算等处理。数据服务层则负责为上层应用提供数据的访问和服务。数据应用层则是最上层的应用层,负责向业务应用提供数据和服务,如BI分析、数据挖掘等。同时,数据中台架构体系应该具备高可用、高性能、高安全等特点,以保障数据的稳定和安全。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值