数据挖掘——变量选择

数据挖掘过程中,变量过多可能导致维数灾难,影响模型速度而不利于精度提升。特征规约成为必要,包括主成分分析和特征选择。主成分分析通过保留一定比例的方差贡献度来减少变量,而特征选择如向前选择和向后淘汰策略,可在不破坏数据结构下精简变量。
摘要由CSDN通过智能技术生成

大多数数据集需要我们对之进行“清洗”工作,包括数据转换、数据离散化、数据缺失替换和数据异常点处理

在实际的挖掘分析中,过多的变量对模型精度的提升十分有限,但是对于挖掘速度的影响确实十分巨大的,维数灾难就是描述这一情况的。

我们需要多少变量来进行分析挖掘?

特征规约:特征规约即针对特定数据集进行变量数目的减少,在P较大时,特征规约显得有很强的必要性

特征规约方法:

  • 主成分分析:较为常用的特征规约方法,可以在保留数据集一定信息的同时大规模减少变量数目,应用较广
  •         主要细节:决定主成分分析结果的是我们要保留多少百分比的方差贡献度
  • 特征选择:可以在不破坏数据结构的前提下精简变量,目前越来越流行,是主成分分析的一个极佳的补充
  •         向前选择+向后淘汰
                      
主成分分析是对变量的重新组合,特征选择是对变量的单纯意义上的精简。
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值