【架构】ETL 流程

ETL是数据仓库建设的关键步骤,涉及数据抽取、转换和加载。从结构化、非结构化和半结构化数据源抽取数据,通过全量和增量同步方式,进行数据清洗和转换,最后加载到目标系统。常用ETL工具有Sqoop、Kettle、Datastage、Informatica、Flume和Logstash。在大规模数据场景下,ETL实施可能需要数月时间。
摘要由CSDN通过智能技术生成

ETL 基本概念

ETL 是将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。

ETL 过程是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL 规则的设计和实施约占整个数据仓库搭建工作量的 60%~80%。

数据抽取(Extraction)

对不同数据源的抽取

抽取的数据,根据类型的不同,可以分为结构化数据、非结构化数据、半结构化数据。

结构化数据的抽取可以采用 JDBC 连接到数据库直接进行抽取,这也是最常用的一种方法,但这种方式因为是对数据库进行直连,所以会消耗数据库的 IO,影响正常的业务进行,所以抽取时间会选择在凌晨业务量较少的时间;而且有一些企业不允许对数据库进行直接抽取,首先是出于安全的考虑,防止数据库异常、影响业务运行;其次对数据库进行直抽会因为 IO 的问题,导致抽取速度非常慢,无法在规定时间内完成数据导出。

除了使用 JDBC 进行数据抽取外,还可以抽取数据库日志的方式进行抽取,这种方式不会直连数据库,而是直接采集数据库的 WAL(预写日志文件)。数据库为了保证数据的安全性,所有对数据库的操作,都会顺序追加到 WAL 日志文件中,然后再对数据库执行操作。所以对 WAL 日志的采集对数据库的影响是极小的,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桥路丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值