# 4.4数据规约:降低无效、错误数据对建模的影响,提高建模的准确性;少量且具有代表性的数据将大幅缩减数据挖掘所需时间;降低存储数据的成本。 # 属性规约:通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数。 # 常见方法: # 1、合并属性:将一些旧属性合为新属性 # 2、逐步向前选择:从一个空属性集开始,每次从当前属性子集中选择一个当前最优的属性并将其添加到当前属性子集中,知道无法选择出最优属性或满足一定阈值约束为止; # 3、逐步向后删除:从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,知道无法选择出最差属性为止或满足一定阈值约束为止; # 4、决策树归纳:利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可以认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集; # 5、主成分分析:用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分一般选择使贡献率达到80%的主成分个数。 #