一、为什么进行数据预处理 ?
定义数据质量的三大要素是:accuracy, completeness, and consistency.
数据的质量取决于你要用数据做什么用途,不同的用途会对数据质量评价的标准不同。
记录数据的及时性也会影响到数据的质量。假设在一家商业公司,月末进行销售额统计但是各个部门经理没有及时上报自己部门的销售额,那么在一段时间内这个数据是不精确的。
数据的可信度以及可解释性(能不能让人理解)也很重要,是影响数据质量的其他两个因素。
二、数据预处理的主要任务
1.数据清理是日常的工作。这一步主要是做弥补缺失数值,平滑噪声数据,识别或者移除离群点,检查数据不一致性。
2.数据集成。因为在集成 不同数据库中的内容时, 你会发现有很多重复的数据,或者指向同一个内容的数据,那么在这一步需要对数据进行集成,删除重复数据。
3.数据归约。数据归约的目的是为了减小数据集的体积,但是同时能够达到和未缩减数据模型一样的效果。他包括了维归约和数值归约。
维归约:使用数据编码的方案让原始数据得到简化或者压缩表示。
数值归约:使用参数模型或者非参数模型用较小的表示取代数据。
规范化,数据离散化和概念分层产生都是某种形式的数据变换(data transformation)
数据预处理的过程步骤分类不是互斥的。比如说数据清理是一种数据清理形式也是一种数据归约。