读《python数据挖掘与分析实战》之六

数据规约

在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

数据规约的意义:1.降低无效,错误数据对建模的影响,提高建模的准确性。2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间,3.降低存储数据的成本

属性规约

通过属性合并来创新属性维数,或者直接通过删除不相关的属性(维)来减少数据维数,从而提高数据挖掘的效率,降低计算成本。属性规约的目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能地接近数据集的概率分布。常用的方法:

逐步向前选择,逐步向后删除和决策树归纳是属于直接删除不相关性(维)方法。主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少量新变量就能够解释原始数据中的大部分变异。

代码后续再加吧!!!!本地实现了一下还是挺好的

数值规约

数值规约指通过选择替代的,较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法需要存放实际数据,例如直方图,聚类,抽样。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值