特征选择作为常见的降维方法是数据挖掘中的研究热点之一。特征选择时指从原始的特征集合中选取出以某种标准最优的特征子集。其目的就是选出最优的特征子集,进而达到使分类或回归模型更好的预测精度。
一、定义:
特征选择是从N个特征的集合中选出具有M个特征的子集(N>=M).也称为属性简约,可以为满足一些应用再不失去数据的原来的价值的基础上选择最优的属性子集,去除掉了不相关的和冗余的属性。
二、特征选择四要素:
1、搜索的起点和方向。顾名思义,在进行特征选择时,要有选择的起点和方向。搜索方向即评价的特征子集产生的次序,搜索的方向有从空集开始的前向搜索、从全集开始的后向搜索、双向搜索和随机搜索等,
2、搜索策略。特征选择的搜索策略有穷举式搜索、序列搜索、随机搜索。
3、特征评估函数。评价标准在特征选择中有重要作用,是特征选择的依据。评价标准可分为两种:一种是用于单独衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。
4、停止原则。停止原则决定什么时候停止搜索,结束算法的执行。一般停止原则有三种,一是执行时间即实现规定了算法的执行时间,二是评价次数即制定算法需要运算多少次,三是设置阈值即给算法目标设置一个评价阈值,通过目标与该阈值的比较决定算法是否停止。
三、特征选择算法的分类:
1、根据在特征选择过程中,特征子集的评价是否用到在决策机器构造过程中所使用的学习算法可以分类三类。
1)Filter(过滤)方法:相关测量法、类间类內距离测量法、信息熵法、检验以及Relief等。
2)Wrapper(包装)方法:在特征选择时依赖具体机器学习算法,它在筛选特征的过程中直接所选特征子集来训练学习器,根据测试集在学习器上的性能表现来评价该特征子集的优劣。
3)Filter和Wrapper组合式方法。
2、根据搜索策略划分特征选择算法可分为三类。
1)采用全局最优搜索特征选择算法。举例:分支界定算法
2)采用随机搜索策略的特征选择算法。举例:基于遗传算法、k近邻分类器特征选择方法、使用算法结合人工神经网络分类器进行特征选择的方法。
3)采用序列搜索策略的特征选择算法。该类特征选择算法可分为:单独最优特征组合、序列前向选择方法、 广义序列向前选择方法、 序列后向选择方法、广义序列后向选择方法、增l去r选择方法、广义增l去r特征选择方法、浮动搜索方法。
四、影响特征权值的因素:
1、词频
文本内中频词往往具有代表性,高频词区分能力较小,而低频词或者稀有出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。