从ETL到ELT:让分析更快、更稳、更智能

随着数据处理实时性需求提高,公司从ETL转向ELT。ELT在数据仓库中进行转换,提供更高灵活性和敏捷性,允许分析人员直接参与转换过程,提升效率。与ETL相比,ELT更便于错误修正,支持自助服务分析。巨杉数据库的湖仓一体数据融合平台SequoiaDB-DP将进一步推动ELT的应用。
摘要由CSDN通过智能技术生成

 

 

图片 前言

分布式数据库技术正在迅速发展,随着数据处理的实时性需求越来越高,公司在管理数据处理的过程中,开始从ETL方案,逐渐转向ELT方案。

ETL(Extract-Transform-Load),是对数据进行抽取、转换、加载的一系列过程,数据从数据源移动到中间区域(Staging Area),然后再进入数据仓库,所有转换都在数据加载到仓库之前执行。

而ELT(Extract-Load-Transform),则提供了更现代化的替代方案,在该方案中,分析师在转换数据之前将数据加载到数据仓库中,从而支持更灵活、更敏捷的工作方式。

无论是ETL,还是ELT,都是把数据从数据源移动到数据仓库的过程。两种方案的根本区别,在于原始数据「转换」和「加载」的先后顺序,以及随后如何执行分析。

在本文中,我们将对两种方案之间的差异,以及ELT的优势展开讨论。

 

 

图片 传统ETL

传统ETL步骤:

  • 抽取:按照时间戳、触发条件等方式,从数据源中抽取原始数据。在传统的ETL流程中,此数据被放入临时的中间区域(Staging Area)中。

  • 转换:原始数据经过必要的清洗和转换,才能进入数据仓库。如去重、纠错、数据标准统一、按业务规则运算等。

  • 加载:转换后的数据,加载到目的端的数据仓库中。

几十年来,ETL被普遍应用于数据分析领域。最初设计时,ETL通常与传统的关系型数据库一起使用,通过ETL工具来完成上述过程。使用这种方案的数据团队,必须在执行任何分析之前就对数据的所有用例进行预测,然后创建合理的转换规则。在此期间,分析人员通常会等待,直到转换完成,再进行加载入库。

这种模式下,「抽取」和「转换」过程通常由开发人员来完成,而分析人员对于转换过程的逻辑知之甚少,很难准确地理解数据含义,也无法帮助开发人员优化转换过程。同时,还可能导致不正确的分析结论产生。

 

 

图片 新型ELT

ELT,是传统ETL的新型迭代架构,依托于云数据仓库极强的可扩展性和存算分离架构设计,充分利用数据仓库(或数据湖)优异的计算和存储能力,在数据加载完之后再进行数据转换。由于「转换」过程在数据仓库一侧进行,并且可以通过SQL完成,提供了更加灵活的转换模式,也使得分析人员更清楚地掌控转换规则和逻辑,从而提升分析作业效率。

 

 

图片 ETL vs ELT

那么,在数据分析业务中采用ELT,将带来哪些优势呢?

  • 敏捷性:所有数据都存储在数据仓库中,随用随取。分析人员可按照实际需求灵活地建模,而不用在数据加载之前规划数据模型。

  • 简便性:数据仓库中的转换通常用SQL来实现,而SQL是整个数据团队(如数据工程师、数据科学家、数据分析师等)都能理解的语言。这使得整个团队都可以参与到数据的转换、分析。

  • 自助服务分析:原始数据都在数据仓库内部,因此可以使用BI工具,从聚合的统计信息中,向下钻取获得其原始数据。

  • 错误修正如果在转换中发现错误,仅需重新运行「转换」步骤来修正数据。而使用传统ETL,则需要重新运行全部「抽取-转换-加载」过程。

在传统数据仓库时代,因为高昂的资源成本(如计算和存储),企业只能把完成「转换」后的数据加载到数据仓库。随着基于云的新一代计算存储解决方案快速发展,云化的资源成本不断下降,传统ETL已经逐渐开始被替代。

但是,在一些特定的应用场景,传统ETL仍存在其使用价值,或者可以同ELT结合使用(ETLT):

  • 数据清理:在敏感数据进入仓库之前(如个人识别信息PII),将其脱敏,保证可以被用户公开访问。

  • 容量控制:在超大容量数据的场景,使用ETL流程,可以对数据进行一定过滤,避免不需要的数据格式进入数据仓库,进而引发性能或容量的问题。

  • 流式转换:大多数数据仓库不支持流式转换。因此,为了保证在海量数据场景下能够实现低延迟、低成本的流式转换,还需要借助传统ETL。

 

 

图片 总结

ELT的优势在于,将所有原始数据从多个源移动至一个统一的存储库,并且可以随时地、无限制地访问所有数据。这使得数据分析更加灵活便利。数据分析人员和技术人员在处理数据时可以更加高效,因为不再需要额外开发复杂的ETL流程。

作为国内领先的数据库厂商,巨杉数据库即将在2021年春季发布会,正式发布「湖仓一体」架构下的数据融合平台SequoiaDB-DP。其原生多模的分布式架构,可以高效、稳定地存储多样化的原始数据,轻松实现数据「加载」。另一方面,深度优化Apache SparkSQL,提供极高性能的实时分析能力,让「转换」 更加高效。同时SequoiaDB-DP还提供丰富的生态对接,支持Tableau、HarryData、帆软等国内外知名分析工具,帮助分析人员快速获得数据分析报表和商业智能决策。

参考文献:https://dataform.co/blog/etl-vs-elt

参考作者:Josie Hall

 

 

图片相关阅读

分布式数据库或成为新增量

未来已来!分布式数据库的“星辰大海”绝不仅限于替换!

湖仓:数据湖与数据仓库的融合

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值