目录
1 聚集
聚集是将两个或者多个对象合并成单个对象。一般来说,定量数据都是通过求和或求平均值的方式进行聚集,定性数据通常通过汇总进行聚集。
2 抽样
如果处理全部数据的开销太大,数据预处理可以使用抽样,只选择数据对象的子集进行分析。抽样方法有很多种,例如简单随机抽样和分层抽样。
3 维度归约
维度是指数据集中属性的数目。维度归约是指创建新属性,通过数据编码或数据转换,将一些旧属性合并在一起以降低数据集的维度。
4 属性选择
除了维度归约外,降低维度的另一种方法就是仅仅使用属性的一个子集。属性选择是指从数据集中选择最具代表性的属性子集,删除荣誉冗余或者不相关的属性,从而提高数据处理的效率,使模型更容易理解。下面介绍三种标准的属性选择方法:嵌入、过滤、包装。
嵌入方法:将属性选择作为数据挖掘算法的一部分。在挖掘算法运行期间,算法本身决定使用哪些属性以及忽略哪些属性。决策树通常使用这种方法。
过滤方法:在运行数据挖掘算法之前,使用独立于数据挖掘 任务的方法进行属性选择,即:先过滤数据集产生一个属性子集。
包装方法:将学习算法的结果作为评价准则的一部分,使用类似于理想算法,但通常无法枚举出全部可能的子集以找出最佳属性子集。
5 属性创建
通过对数据集中的旧的属性进行处理,创建新的数据集。由于通常新数据集的维度比原数据低,因此可以获得维度归约到带来的好处。属性创建有三种方法:属性提取、映射数据到新空间和属性构造。
属性提取:由原数据创建新的数据集。
映射数据到新空间:使用一种完全不同的视角挖掘数据可能揭示重要而有趣的特征。
当原始数据的属性含有必要信息,但其形式不适合数据挖掘算法的时候,可以使用属性构造,将一个或多个原来的属性构造成新的属性。
6 离散化和二元化
将连续属性转换成分类属性成为离散化,将连续和离散属性转换为一个或多个二元属性称为二元化。
离散化的问题就是决定选择多少个分割点,以及确定分割点的位置。
7 变量转换
也称属性转换,是指用于变量的所有值的变换。有简单函数变换和规范化。
简单函数变换:使用一个简单数学函数分别作用于每一个值。
变量标准化:使整个值的集合具有特定的性质。