概念释义
数据集集成简单通俗地解释是把不同来源的数据合并存放在一起(如数据仓库),从而方便后续数据挖掘工作。如果把数据挖掘比喻成炒菜,数据集成就是备菜的过程。
在实际大数据项目中,80%的工作与数据集成相关。广义的数据集成包括数据清洗、数据抽取、数据集成和数据变换等操作。
那么,数据集成有什么意义?在日常实际工作当中,我们需要的数据一般分布在不同的数据源中,而对这些数据进行规范化、标准化处理是必要的步骤,不然类似同一字段表达不同含义的情况会导致后续数据挖掘得到的结果失去意义。
数据集成的两种架构
数据工程师的主要工作内容包括数据ETL和数据挖掘的算法实现两部分。上面说了数据工程师大部分时间都在做ETL这部分工作。
ETL英文是Extract、Transform、Load的缩写,即数据抽取、转换以及加载三个过程。
数据抽取就是把数据从已有的数据源中提取出来。
数据转换就是对原始数据进行处理,如把两种表合成一张。
数据加载就是数据结果导出。
根据转换发生的顺序和位置,数据集成可分为ETL和ELT两种架构。其中ETL目前是主流,而ELT是未来发展趋势。
ETL工具
典型的 ETL 工具有:
商业软件:Informatica PowerCenter、IBM InfoSphereDataStage。Oracle Data Integrator、Microsoft SQL Server Integration Services 等
开源软件