数据挖掘第三章笔记——数据归约

数据归约是数据挖掘中用于减小数据集规模的技术,保持数据完整性的同时提高挖掘效率。主要包括维归约(如小波变换、主成成分分析)、属性子集选择等方法。属性子集选择通过删除不相关或冗余属性,寻找最小属性集,以接近原数据分布。此外,还包括回归模型、直方图、聚类、抽样和数据立方体聚集等策略。
摘要由CSDN通过智能技术生成

数据归约是用来得到数据集的归约表示的,可以用较小的数据集来保持原始数据的完整性。在归约以后的数据集上挖掘会更有效,仍然产生相同的分析结果。

1.数据归约策略概述

包括维归约,数量规约以及数据压缩。

维归约主要考虑减少随机变量或者属性的个数。维归约 的方法包括小波变换,主成成分分析。属性子集选择也是维归约的方法,不相关弱相关或者冗余的属性会被检测或删除。

 

 2.小波变换

这里暂时没太看懂需要单独一篇写一些理解

3.主成成分分析:

搜索 K个最能代表数据的N维正交向量。使得原来的属性集的一个子集减少属性集的大小不同,PCA通过创建一个替换的,较小的变量集组合属性的基本要素。

4.属性子集选择是通过删除不相关或者冗余的属性来减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能接近使用所有属性得到的原分布 。

属性子集选择基本启发方法包括:

5.回归和对数线性模型,参数化数据归约。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值