特征选择开篇

面对数据挖掘中的维度灾难,特征选择成为关键。粗糙集理论提供了一种处理不确定信息的工具,常用于特征选择。本文探讨了基于粗糙集的特征选择算法,包括穷举法、启发式方法和随机法,并指出在大数据集上寻找最优特征子集的挑战。此外,还预告将介绍如何利用蚁群优化、粒子群优化和人工蜂群优化等群智能方法解决特征选择问题。
摘要由CSDN通过智能技术生成

在数据挖掘中,描述数据的特征的维度越来越高,然而其中大部分特征可能和挖掘任务不相关或特征之间存在相互冗余,使得数据挖掘中学习算法的时空复杂度增高,效果变差,这种现象被称为维度灾难。面对维度灾难。如何降低维度显得非常迫切,特征选择就是一种有效的降维方法。通过特征选择,消除数据的无关和冗余特征,可以提高发现知识的效率,而且能够改善分类器的性能。因此,特征选择成为数据挖掘中的重要研究分支。

我印象较深的是几次比赛中,如果主办方不告知数据的业务含义,就会有很多种构造特征的方法,特征非常多的时候就很需要特征选择,可以说在这种比赛中特征选择是比赛的关键,比如近期的ccf的离散工件制造赛道。出题方并没有告知十个参数是什么参数。我们无法结合具体的业务含义来构造有效特征,只好暴力穷举,把能够想到的特征全部造出来,然后通过线下交叉验证测试可能的特征组合能够到多少分。

但是不断堆叠特征去拟合目标函数是不可取的,凡事有一个方法论,就是做什么事情得有个路数。现实世界中的数据纷繁复杂,不可避免存在大量噪音、不相关和不一致,因此对于特征选择的要求不断提高。粗糙集(rough set)理论是波兰的Z Pawlak院士在1982年提出的。是一种相对较新的软计算工具,能够处理不确定或者不精确的信息,他在特征选择算法中得到广泛应用,已逐渐成为一种重要的特征选择理论框架。基于粗糙集的特征选择,要求最终的到的特征子集,不仅其分类能力与原始特征集合的分类能力一致,而且具有最少的基数。

基于粗糙集的特征选择算法根据采用的搜索方法不同可分为三大类:

1、穷举法,选取所有的特征子集,然后选取最少基数的特征子集,明显不适合大数据集。

2、启发式方法,从一个特征子集出发,使用启发式信息来引导特征选择的过程,不断添加或者删除特征,直到满足条件

3、随机法,采用遗传算法等随机算法的搜索能力来产生最优特征子集

已经有文献证明 求出所有满足要求的特征子集是个NP难问题,穷举法肯定不适合,但是2和3无法保证选取到的是最优特征子集。

群智能是无智能或具有简单智能的个体组织在一起,如蚁群,鸟群,蜂群通过相互协作表现出智能行为的特性。

后续文章主要讲述如何通过群智能如:蚁群优化、粒子群优化、人工蜂群优化来解决特征选择的问题。欢迎关注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值