为什么是ELT而非ETL

最新推荐文章于 2023-08-28 10:13:21 发布

IT转型指北

最新推荐文章于 2023-08-28 10:13:21 发布

阅读量637

点赞数

分类专栏：数据技术文章标签： etl 数据仓库数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33973583/article/details/128119651

版权

数据技术专栏收录该内容

5 篇文章 1 订阅

订阅专栏

在这里插入图片描述

这是大数据技术扫盲系列的第四篇【什么是ELT】

全文1000字，阅读需要5分钟

一、什么是ELT？

ELT是抽取（Extract）、加载（Load）、转换（Transform）的缩写。

数据抽取：ELT pipeline的起始端，字面含义不做解释，在架构数据抽取方案时，有两个关注点，第一个要对多数据源类型、多种数据结构保持一定的灵活性和适配，比如关系型数据库的结构化数据、XML、JSON、文本文件、API、消息流等；第二个是对增全量模式的支持，支持通过SQL查询的方式对增量数据进行抓取（物理删除无法捕获的风险）、通过变更日志的CDC增量抓取、全量抓取。

数据加载：ELT pipeline的目标端，可以是一个集中的数据库、数据仓库、数据湖。在这部分，需要关注，第一个注意数据写入的模式是追加还是覆盖，这个取决于约定的同步模式。尽量支持流程的幂等执行。第二个注意加载的数据和源端保持一致，作为贴源层。第三是方案需要考虑支持多点加载，即一次抽取分发多个目标端。

数据转换：将加载后的数据做加工，一般包括数据清洗和结构化处理、数据校验、数据关联、数据增强。

二、为什么不是ETL？

我们所熟知的是ETL，抽取、转换、加载，即数据在落地到目标端前做数据的转换操作。在现代数据技术栈中，提倡更多的是ELT，主要的原因有两个：

第一个是ELT比ETL有更广的适用范围：在当下数据平民化的趋势下，一份数据往往要应对更灵活的需求，意味着数据要尽量保证原汁原味。在抽取过程中转换，原始数据中有信息丢失，也意味着这个数据所能应用的场景已经被提前设计，在需求发生变化时，需要做调整。

第二个是存储和计算成本的不断降低，ETL自1970年出现后，在转换中裁剪数据，以减少下游在数据处理中对存储和计算资源的损耗。但当下存储成本和计算成本逐步降低，对海量数据的存储和计算不再昂贵，也使ELT成为更优选择.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
为什么是ELT而非ETL

为什么是ELT，而不是ETL？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IT转型指北 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。