常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。
1. 数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。
2. 数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。
3. 数据变换:找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。
4. 数据归约:是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。
一 数据清洗
1 缺失值处理
1.1 删除法
在不影响数据结构的情况下,删除法是最简单的将缺失值转变为完整数据集的方法。根据数据处理的不同角度,删除法可分为以下4种:
(1) 删除观测样本;
(2) 删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除;
(3) 使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析;
(4) 改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加工&#