数据仓库技术支持-ETL1
新手小白的大数据学习逆袭之路!
目录
1.什么是ETL
ETL,即提取(Extract)、转换(Transform)、加载(Load),是数据仓库中常用的一种数据处理过程。它用于从各种不同的数据源中提取数据,经过一系列的转换处理,最终将数据加载到目标数据仓库或者目标数据库中,以支持数据分析、报表生成等应用。
让我用更简单的语言解释一下:
提取(Extract):这一步是从源系统(如数据库、日志文件、API等)中提取数据。数据可以是结构化的、半结构化的或非结构化的,这些数据通常分散在不同的系统中。
转换(Transform):在这一步,数据经过清洗、转换、合并、聚合等处理,以符合目标数据仓库的格式和要求。这个过程可能包括数据清洗、数据规范化、数据验证、数据计算等操作,以确保数据的质量和一致性。
加载(Load):最后一步是将经过转换处理后的数据加载到目标数据仓库或数据库中。这可能涉及到将数据插入到数据库表中、更新现有数据或者创建新的数据表。
ETL过程是数据仓库中非常重要的一环,它可以帮助组织和整合不同来源的数据,为企业提供数据驱动的决策支持。随着大数据时代的到来,ETL技术也在不断发展,出现了各种各样的ETL工具和框架,如Apache Hadoop、Apache Spark等,以满足不同规模和复杂度的数据处理需求。
2.Extract 抽取
3.Transform 转换
3.Load 加载
4.ETL作用
把源数据的数据抽取 转换 加载到数据仓库中去
5.如何做ETL
下面我们开始做ETL开发 我们打开下面的文件目录
1)新建一个项目
2)新建两个数据源
3)新建SSIS包(包括维度表 事实表)