数据挖掘中特征选择算法的基本综述

最新推荐文章于 2024-08-03 11:26:33 发布

所有的今天都是为了明天

最新推荐文章于 2024-08-03 11:26:33 发布

阅读量4.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34280796/article/details/55045259

版权

特征选择是数据挖掘中的重要步骤，旨在从原始特征中选择最优子集，以提升模型预测精度。本文介绍了特征选择的定义、四要素、算法分类及其影响因素，包括搜索策略、评价函数、停止原则等，并列举了如TF-IDF、互信息、信息增益等多种常见算法。

摘要由CSDN通过智能技术生成

特征选择作为常见的降维方法是数据挖掘中的研究热点之一。特征选择时指从原始的特征集合中选取出以某种标准最优的特征子集。其目的就是选出最优的特征子集，进而达到使分类或回归模型更好的预测精度。

一、定义：

特征选择是从N个特征的集合中选出具有M个特征的子集（N>=M）.也称为属性简约，可以为满足一些应用再不失去数据的原来的价值的基础上选择最优的属性子集，去除掉了不相关的和冗余的属性。

二、特征选择四要素：

1、搜索的起点和方向。顾名思义，在进行特征选择时，要有选择的起点和方向。搜索方向即评价的特征子集产生的次序，搜索的方向有从空集开始的前向搜索、从全集开始的后向搜索、双向搜索和随机搜索等，

2、搜索策略。特征选择的搜索策略有穷举式搜索、序列搜索、随机搜索。

3、特征评估函数。评价标准在特征选择中有重要作用，是特征选择的依据。评价标准可分为两种：一种是用于单独衡量每个特征的预测能力的评价标准；另一种是用于评价某个特征子集整体预测性能的评价标准。

4、停止原则。停止原则决定什么时候停止搜索，结束算法的执行。一般停止原则有三种，一是执行时间即实现规定了算法的执行时间，二是评价次数即制定算法需要运算多少次，三是设置阈值即给算法目标设置一个评价阈值，通过目标与该阈值的比较决定算法是否停止。

三、特征选择算法的分类:

1、根据在特征选择过程中，特征子集的评价是否用到在决策机器构造过程中所使用的学习算法可以分类三类。

1）Filter（过滤）方法：相关测量法、类间类內距离测量法、信息熵法、检验以及Relief等。

2）Wrapper（包装）方法：在特征选择时依赖具体机器学习算法，它在筛选特征的过程中直接所选特征子集来训练学习器，根据测试集在学习器上的性能表现来评价该特征子集的优劣。

3）Filter和Wrapper组合式方法。

2、根据搜索策略划分特征选择算法可分为三类。

1）采用全局最优搜索特征选择算法。举例：分支界定算法

2）采用随机搜索策略的特征选择算法。举例：基于遗传算法、k近邻分类器特征选择方法、使用算法结合人工神经网络分类器进行特征选择的方法。

3）采用序列搜索策略的特征选择算法。该类特征选择算法可分为：单独最优特征组合、序列前向选择方法、广义序列向前选择方法、序列后向选择方法、广义序列后向选择方法、增l去r选择方法、广义增l去r特征选择方法、浮动搜索方法。

四、影响特征权值的因素：

1、词频

文本内中频词往往具有代表性，高频词区分能力较小，而低频词或者稀有出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素，并且在不同方法中有不同的应用公式。

最低0.47元/天解锁文章

所有的今天都是为了明天

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。