Python数据分析与挖掘实战学习13

数据规约在大数据分析中至关重要,通过属性规约和数值规约减少数据冗余,提升效率。主成分分析是属性规约的一种方法,用于连续属性的数据降维,通过Python的Scikit-Learn库实现。此外,数值规约涉及直方图、聚类和抽样等技术,以小规模数据代表大规模数据集。
摘要由CSDN通过智能技术生成

一、数据规约

在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。

数据规约的意义在于:

(1)降低无效、错误数据对建模的影响,提高建模的准确性;

(2)少量且具代表性的数据将大幅缩减数据挖掘所需的时间;

(3)降低存储数据的成本。

1.属性规约

属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性(维)来减少数据维数,从而提高数据挖掘的效率、降低计算成本。属性规约的目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。属性规约常用方法如下表所示:

属性规约方法

方法描述

方法解析

 

 

合并属性

 

 

将一些旧属性合并为新属性

初识属性集:{A1,A2,A3,A4,B1,B2,C}

{A1,A2,A3,A4}->A

{ B1,B2}->B

=>规约后属性集:{A,B,C}

 

 

逐步向前选择

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值