Python数据分析与挖掘实战第四章笔记之数据规约、主成分分析

# 4.4数据规约:降低无效、错误数据对建模的影响,提高建模的准确性;少量且具有代表性的数据将大幅缩减数据挖掘所需时间;降低存储数据的成本。
# 属性规约:通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数。
# 常见方法:
# 1、合并属性:将一些旧属性合为新属性
# 2、逐步向前选择:从一个空属性集开始,每次从当前属性子集中选择一个当前最优的属性并将其添加到当前属性子集中,知道无法选择出最优属性或满足一定阈值约束为止;
# 3、逐步向后删除:从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,知道无法选择出最差属性为止或满足一定阈值约束为止;
# 4、决策树归纳:利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可以认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集;
# 5、主成分分析:用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分一般选择使贡献率达到80%的主成分个数。
# 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值