ETL (Extraction,Transformation,Loading) 即数据的抽取,转换和加载。
ETL工具可以将业务系统中分布的、异构数据源中的数据,如关系数据库、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或者数据集市中,成为联机分析处理、数据挖掘的基础,为辅助决策、分析、查询提供统一的数据依据。
ETL是数据仓库建设的重要环节。在技术上,ETL主要涉及关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以,ETL可以定时进行。但多个ETL操作的时间、顺序和成败对数据仓库中信息中的有效性至关重要。
ETL作为BI/DW的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL典型的产品有IBM Datastage,Informatic的PowerCent.
目前在数据抽取的过程中经常使用的三种方法,
第一:借助专业的ETL工具实现;
第二:SQL编程方式实现(PL/SQL);
第三:ETL与SQL编程结合实现。