数据归约是用来得到数据集的归约表示的,可以用较小的数据集来保持原始数据的完整性。在归约以后的数据集上挖掘会更有效,仍然产生相同的分析结果。
1.数据归约策略概述
包括维归约,数量规约以及数据压缩。
维归约主要考虑减少随机变量或者属性的个数。维归约 的方法包括小波变换,主成成分分析。属性子集选择也是维归约的方法,不相关弱相关或者冗余的属性会被检测或删除。
2.小波变换
这里暂时没太看懂需要单独一篇写一些理解
3.主成成分分析:
搜索 K个最能代表数据的N维正交向量。使得原来的属性集的一个子集减少属性集的大小不同,PCA通过创建一个替换的,较小的变量集组合属性的基本要素。
4.属性子集选择是通过删除不相关或者冗余的属性来减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能接近使用所有属性得到的原分布 。
属性子集选择基本启发方法包括:
5.回归和对数线性模型,参数化数据归约。