数据挖掘中特征选择算法的基本综述

特征选择是数据挖掘中的重要步骤,旨在从原始特征中选择最优子集,以提升模型预测精度。本文介绍了特征选择的定义、四要素、算法分类及其影响因素,包括搜索策略、评价函数、停止原则等,并列举了如TF-IDF、互信息、信息增益等多种常见算法。
摘要由CSDN通过智能技术生成

       特征选择作为常见的降维方法是数据挖掘中的研究热点之一。特征选择时指从原始的特征集合中选取出以某种标准最优的特征子集。其目的就是选出最优的特征子集,进而达到使分类或回归模型更好的预测精度。

一、定义:

特征选择是从N个特征的集合中选出具有M个特征的子集(N>=M).也称为属性简约,可以为满足一些应用再不失去数据的原来的价值的基础上选择最优的属性子集,去除掉了不相关的和冗余的属性。

二、特征选择四要素:

1、搜索的起点和方向。顾名思义,在进行特征选择时,要有选择的起点和方向。搜索方向即评价的特征子集产生的次序,搜索的方向有从空集开始的前向搜索、从全集开始的后向搜索、双向搜索和随机搜索等,

2、搜索策略。特征选择的搜索策略有穷举式搜索、序列搜索、随机搜索。

3、特征评估函数。评价标准在特征选择中有重要作用,是特征选择的依据。评价标准可分为两种:一种是用于单独衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。

4、停止原则。停止原则决定什么时候停止搜索,结束算法的执行。一般停止原则有三种,一是执行时间即实现规定了算法的执行时间,二是评价次数即制定算法需要运算多少次,三是设置阈值即给算法目标设置一个评价阈值,通过目标与该阈值的比较决定算法是否停止。

三、特征选择算法的分类:

1、根据在特征选择过程中,特征子集的评价是否用到在决策机器构造过程中所使用的学习算法可以分类三类。

     1)Filter(过滤)方法:相关测量法、类间类內距离测量法、信息熵法、检验以及Relief等。

     2)Wrapper(包装)方法:在特征选择时依赖具体机器学习算法,它在筛选特征的过程中直接所选特征子集来训练学习器,根据测试集在学习器上的性能表现来评价该特征子集的优劣。

     3)Filter和Wrapper组合式方法。

2、根据搜索策略划分特征选择算法可分为三类。

     1)采用全局最优搜索特征选择算法。举例:分支界定算法

     2)采用随机搜索策略的特征选择算法。举例:基于遗传算法、k近邻分类器特征选择方法、使用算法结合人工神经网络分类器进行特征选择的方法。

     3)采用序列搜索策略的特征选择算法。该类特征选择算法可分为:单独最优特征组合、序列前向选择方法、 广义序列向前选择方法、 序列后向选择方法、广义序列后向选择方法、增l去r选择方法、广义增l去r特征选择方法、浮动搜索方法。

四、影响特征权值的因素:

1、词频

       文本内中频词往往具有代表性,高频词区分能力较小,而低频词或者稀有出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值