ETL
ETL,是英文 Extract-Transform-Load
的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)
至目的端的过程。
ETL 一词较常用在数据仓库
,但其对象并不限于数据仓库。
在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。
要对一堆数据进行分析处理,发现这里面有一些不符合规定的数据。比如说从 某网站 爬取的数据,数据中的一些核心字段没有数据,类似这样的数据,我们就需要将其过滤掉。
比如说手机号123456,通过正则匹配
不符合规则,就得将该条数据过滤掉。邮箱 12345@163.com 按照规则,比如说需要首字母开头,不符合规则,也得将其过滤掉
通常,Hadoop也可以作为ETL的一个工具之一。以后还有用 Python、Kettle、SQL(HQL\SparkSQL\FlinkSQL)等进行ETL(清洗、转换、加载)
清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。
End