etl介绍与etl工具比较_ETL万岁

etl介绍与etl工具比较

提取转换负载是从一个数据系统中提取数据并加载到另一个数据系统中的过程。 涉及的数据系统称为源系统和目标系统。

来自源系统的数据形状与目标系统不匹配,因此需要进行一些转换以使其兼容,该过程称为Transformation 。 转换是由map / filter / reduce操作完成的。

为了处理数据系统之间的不兼容性,需要一些元数据。 哪种类型的元数据会有用?

将源数据转换成许多不同的形状以处理各种业务用例是非常普遍的,因此对于源系统使用描述 性元数据,对于目标系统使用描述性元数据是有意义的。

元数据在使系统向后向前兼容方面起着重要作用。



很多时候仅拥有元数据是不够的,因为某些源/目标系统数据太大或太小而无法容纳。

这是当变换变得有趣的情况。 这意味着某些值必须删除或设置为NULL或默认值,对此做出正确的决定对于转换的向后/向前兼容性非常重要。 我想说许多企业的成功还取决于如何解决这个问题! 如果正确完成,可以避免许多集成梦night。

到目前为止,我们只是在讨论单一源系统,但是在许多用例中,都需要来自其他系统的数据进行一些转换,例如将userid转换为name,派生新的列值,查找编码等等。

添加多源系统会增加转换的复杂性,以处理丢失的数据,陈旧的数据等。

随着数据系统的发展,今天不仅涉及关系存储,我们还看到键值存储,文档存储,图数据库,列存储,缓存,日志等。

新数据系统也已分发,因此这增加了转换复杂性的另一个维度。

我们的旧关系数据库也可以描述为它是使用ETL模式构建的,通过使用更改日志作为数据库所做的一切工作的源

关于ETL的神话之一是,它是批处理过程,但是随着Stream处理器(即Spark Streaming,Flink等)和Pub Sub系统(Kafka,Pulsur等)的出现,它会随着时间而改变。 这样可以在事件推送到源系统后立即进行转换。

流式流行语不要被太多带走,不
无论您使用哪个流处理器或发布子系统,但您仍然必须应对上述挑战或利用某些新平台来解决这一问题。

投资转换/业务逻辑,因为这是构建可维护和可扩展的成功系统的关键。

使其保持无状态,元数据驱动,处理重复/重试等,更重要的是编写Tests以在快速变化的时间内对其进行良好的维护。

下次当您对ETL流程有疑问时

您处理实时还是批量处理?

你的答案应该是

这是基于事件的处理。

ETL万岁

翻译自: https://www.javacodegeeks.com/2020/04/long-live-etl.html

etl介绍与etl工具比较

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ETL(Extract-Transform-Load)是一种用于数据集成和转换的技术。常用的三种ETL工具如下: 1. Informatica PowerCenter: Informatica PowerCenter是一种功能强大的ETL工具,被广泛应用于数据集成和数据转换任务。它提供了一个直观的可视化界面,方便用户进行数据抽取、转换和加载的配置。PowerCenter支持多种数据源和目标,能够高效地处理大量的数据并保持数据的一致性和准确性。 2. IBM InfoSphere DataStage: IBM InfoSphere DataStage是IBM公司出品的ETL工具,适用于大规模的数据集成项目。它提供了强大的数据转换和清洗功能,能够将数据从不同的源系统中提取,并进行转换和加载到目标系统中。DataStage具有高度可扩展性,可以处理高速和大容量的数据流,同时支持实时和批处理模式。 3. Microsoft SQL Server Integration Services(SSIS): Microsoft SQL Server Integration Services(SSIS)是微软公司开发的一种ETL工具,主要用于数据集成和数据转换任务。SSIS提供了丰富的数据抽取、转换和加载功能,支持多种数据源和目标。它集成于Microsoft SQL Server平台中,可以与其他Microsoft产品(如Microsoft Excel、SharePoint)无缝连接,便于数据的交互和共享。 这些常用的ETL工具都具备数据抽取、转换和加载的功能,可以帮助用户高效地完成各种数据集成任务。用户可以根据自己的需求选择适合的工具,并根据工具提供的功能和性能来进行配置和使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值