从ETL到ELT：让分析更快、更稳、更智能

巨杉数据库SequoiaDB

于 2021-04-22 10:26:21 发布

阅读量718

点赞数 1

文章标签：数据仓库湖仓一体巨杉数据库分布式数据库 sequoiadb

原文链接：https://dataform.co/blog/etl-vs-elt

版权

随着数据处理实时性需求提高，公司从ETL转向ELT。ELT在数据仓库中进行转换，提供更高灵活性和敏捷性，允许分析人员直接参与转换过程，提升效率。与ETL相比，ELT更便于错误修正，支持自助服务分析。巨杉数据库的湖仓一体数据融合平台SequoiaDB-DP将进一步推动ELT的应用。

摘要由CSDN通过智能技术生成

前言

分布式数据库技术正在迅速发展，随着数据处理的实时性需求越来越高，公司在管理数据处理的过程中，开始从ETL方案，逐渐转向ELT方案。

ETL（Extract-Transform-Load），是对数据进行抽取、转换、加载的一系列过程，数据从数据源移动到中间区域（Staging Area），然后再进入数据仓库，所有转换都在数据加载到仓库之前执行。

而ELT（Extract-Load-Transform），则提供了更现代化的替代方案，在该方案中，分析师在转换数据之前将数据加载到数据仓库中，从而支持更灵活、更敏捷的工作方式。

无论是ETL，还是ELT，都是把数据从数据源移动到数据仓库的过程。两种方案的根本区别，在于原始数据「转换」和「加载」的先后顺序，以及随后如何执行分析。

在本文中，我们将对两种方案之间的差异，以及ELT的优势展开讨论。

传统ETL

传统ETL步骤：

抽取：按照时间戳、触发条件等方式，从数据源中抽取原始数据。在传统的ETL流程中，此数据被放入临时的中间区域（Staging Area）中。
转换：原始数据经过必要的清洗和转换，才能进入数据仓库。如去重、纠错、数据标准统一、按业务规则运算等。
加载：转换后的数据，加载到目的端的数据仓库中。

几十年来，ETL被普遍应用于数据分析领域。最初设计时，ETL通常与传统的关系型数据库一起使用，通过ETL工具来完成上述过程。使用这种方案的数据团队，必须在执行任何分析之前就对数据的所有用例进行预测，然后创建合理的转换规则。在此期间，分析人员通常会等待，直到转换完成，再进行加载入库。

这种模式下，「抽取」和「转换」过程通常由开发人员来完成，而分析人员对于转换过程的逻辑知之甚少，很难准确地理解数据含义，也无法帮助开发人员优化转换过程。同时，还可能导致不正确的分析结论产生。

新型ELT

ELT，是传统ETL的新型迭代架构，依托于云数据仓库极强的可扩展性和存算分离架构设计，充分利用数据仓库（或数据湖）优异的计算和存储能力，在数据加载完之后再进行数据转换。由于「转换」过程在数据仓库一侧进行，并且可以通过SQL完成，提供了更加灵活的转换模式，也使得分析人员更清楚地掌控转换规则和逻辑，从而提升分析作业效率。

ETL vs ELT

那么，在数据分析业务中采用ELT，将带来哪些优势呢？

敏捷性：所有数据都存储在数据仓库中，随用随取。分析人员可按照实际需求灵活地建模，而不用在数据加载之前规划数据模型。
简便性：数据仓库中的转换通常用SQL来实现，而SQL是整个数据团队（如数据工程师、数据科学家、数据分析师等）都能理解的语言。这使得整个团队都可以参与到数据的转换、分析。
自助服务分析：原始数据都在数据仓库内部，因此可以使用BI工具，从聚合的统计信息中，向下钻取获得其原始数据。
错误修正：如果在转换中发现错误，仅需重新运行「转换」步骤来修正数据。而使用传统ETL，则需要重新运行全部「抽取-转换-加载」过程。

在传统数据仓库时代，因为高昂的资源成本（如计算和存储），企业只能把完成「转换」后的数据加载到数据仓库。随着基于云的新一代计算存储解决方案快速发展，云化的资源成本不断下降，传统ETL已经逐渐开始被替代。

但是，在一些特定的应用场景，传统ETL仍存在其使用价值，或者可以同ELT结合使用（ETLT）：

数据清理：在敏感数据进入仓库之前（如个人识别信息PII），将其脱敏，保证可以被用户公开访问。
容量控制：在超大容量数据的场景，使用ETL流程，可以对数据进行一定过滤，避免不需要的数据格式进入数据仓库，进而引发性能或容量的问题。
流式转换：大多数数据仓库不支持流式转换。因此，为了保证在海量数据场景下能够实现低延迟、低成本的流式转换，还需要借助传统ETL。

总结

ELT的优势在于，将所有原始数据从多个源移动至一个统一的存储库，并且可以随时地、无限制地访问所有数据。这使得数据分析更加灵活便利。数据分析人员和技术人员在处理数据时可以更加高效，因为不再需要额外开发复杂的ETL流程。

作为国内领先的数据库厂商，巨杉数据库即将在2021年春季发布会，正式发布「湖仓一体」架构下的数据融合平台SequoiaDB-DP。其原生多模的分布式架构，可以高效、稳定地存储多样化的原始数据，轻松实现数据「加载」。另一方面，深度优化Apache SparkSQL，提供极高性能的实时分析能力，让「转换」更加高效。同时SequoiaDB-DP还提供丰富的生态对接，支持Tableau、HarryData、帆软等国内外知名分析工具，帮助分析人员快速获得数据分析报表和商业智能决策。

参考文献：https://dataform.co/blog/etl-vs-elt

参考作者：Josie Hall

相关阅读