ETL技术入门之ETL初认识，数据仓库

最新推荐文章于 2024-08-16 11:59:21 发布

梁凤财

最新推荐文章于 2024-08-16 11:59:21 发布

阅读量2.9k

点赞数

分类专栏： oracle 数据迁移

oracle 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

数据迁移

1 篇文章 0 订阅

订阅专栏

ETL ，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。 ETL 一词较常用在数据仓库，但其对象并不限于数据仓库。

ETL是什么

ETL是Extract Transform Load三个英文单词的缩写中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。

先说下背景知识：

信息是现代企业的重要资源，是企业运用科学管理、决策分析的基础。目前，大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统（例如电信行业的各种运营支撑系统、购物网站系统），用来记录事务处理的各种相关数据。据统计，数据量每2～3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占在总数据量的2%～4%左右。因此，企业仍然没有最大化地利用已存在的数据资源，以致于浪费了更多的时间和资金，也失去制定关键商业决策的最佳契机。

在这个背景下，能够给企业所有级别的决策制定过程提供支持的所有类型数据的战略集合应运而生，他就是数据仓库。数据仓库的英文简写是Data Warehouse。数据仓库就是把OLTP系统产生的数据整合到一起发掘其中的商业价值和提供决策支持用。举个电信行业的例子电信有系统每天会有客户投诉的信息、宽带群体性障碍、客户号码的停机恢复时间记录等等。这些数据都在各自的生产环境系统里面。他们每个月会把这些数据整合到一起处理加工到数据仓库里面形成报表其中有一个功能是可以对哪些用户有离网销号的倾向做出大概的判断。这就是数据仓库的价值所在。

那么怎么把数据弄到数据仓库里去呢，其中用到的一个技术就是ETL。

下面给下ETL的详细解释定义：

ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为DW的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计，而ETL规则设计和实施则是工作量最大的，约占整个项目的60%～80%，这是国内外从众多实践中得到的普遍共识。
ETL是数据抽取（Extract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程。是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。
于是，企业如何通过各种技术手段，并把数据转换为信息、知识，已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。

现在来说说ETL技术用到的工具，常用的有Informatica、Datastage、Beeload、Kettle等。目前只用过kettle，所以这里只对kettle做描述。

kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，kettle 3版本需要安装 3以上都是绿色版无需安装。

提醒的是kettle运行需要机器有JRE环境

Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么。
Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。