一、数据清洗背景
因为数据质量在企业战略决策中占据着重要地位,我们需要对数据仓库中的数据进行清洗等相关操作,得出可靠准确反映企业实际情况的数据,用以支持企业战略决策。
1.数据质量:
数据质量的评价指标:准确性、完整性、简洁性、适用性。
数据质量的问题分类:基于数据源的“脏”数据分类和基于清洗方式的“脏”数据分类。
二、数据清洗的定义(没有一个公正、统一的定义)
数据清洗主要应用于三个领域,即数据仓库、数据挖掘、数据质量管理三个领域
①在数据仓库环境中数据清洗主要包括数据的清洗和结构的转换两个过程。
②在数据挖掘领域中,数据清洗是对数据进行预处理的第一个步骤。
③在数据质量管理领域中,数据清洗从数据质量