我们已经对数据清洗有了一定概念:“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。
在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。所以数据清洗的过程就显得尤为重要,在下面的图上我们可以看到,数据清洗操作是在数据抽取完成之后,然而事实上,数据清洗的操作在整个ETL过程中都会有。比如,我们在数据抽取时会过滤掉某些字段,去除掉重复字段等;在数据加载时,我们会通过查询语法将部分不需要的信息剔除掉。这些都可以算是对数据的清洗。这样做的目的是降低我们数据清洗过程的复杂度,提高效率。
数据清洗的步骤大体可以分为这么几步:
预处理阶段:
-
将数据导入处理工具。也就是我们数据的抽取过程,将数据导入到处理工具中。
-
看数据。这里包含两个部分:一个是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;再有是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,