机器学习中的特征选择和优缺点

最新推荐文章于 2025-04-02 19:15:55 发布

飘的心

最新推荐文章于 2025-04-02 19:15:55 发布

阅读量2w

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/piaodexin/article/details/77203696

版权

机器学习专栏收录该内容

24 篇文章

订阅专栏

本文介绍了三种主要的特征选择方法：嵌入式、过滤式和封装式。嵌入式方法如决策树算法，在学习过程中同时完成特征选择；过滤式方法依据特征与类别的相关性进行选择，通用性强；封装式方法通过学习算法的性能评估特征子集的价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征选择和机器学习算法两者存在紧密的联系，根据特征选择中子集评价标准和后续学习算法的结合

方式可分为嵌入式（embedded）、过滤式（filter）和封装式（wraper）

1.嵌入式特征选择

在嵌入式特征选择中，特征选择算法本身作为组成部分嵌入到学习算法里，最典型的就是决策树算法，如Quinlan的ID3，

C4.5以及Breiman的CART算法等，决策树算法在树增长过程的每个递归步都必须选择一个特征，将样本划分成较小的子集，

选择特征的一句通常是划分后子节点的纯度，划分后子节点越纯，则说明划分效果越好，可见决策树生成的过程也就是特征选择

的过程

2.过滤式特征选择

早期的特征选择算法大多属于过滤式特征选择，过滤式特征选择的评价标准从数据集本身的内在性质获得，与特定的学习

算法无关，因此具有具有较好的通用性。通常选择和类别相关度大的特征或者特征子集。过滤式特征选择的研究者认为，相关度

较大的特征或者特征自己会在分类器上获得较高的准确率，dash 和 liu把过滤式特征选择的评价标准分为四种，即距离度量，信息度量，关联度量

以及一致性度量

优点：算法的通用性强，省去了分类器的训练步骤，算法复杂性低，因而适用于大规模数据集，可以快速去除大量不相关的特征，

作为特征的预筛选器非常合适的

缺点：由于算法的评价标准独立于特定的学习算法，所选的特征子集在分类准确率方面通常低于wrapper方法

3.封装式特征选择

封装式特征选择即wrapper方法利用学习算法的性能来评价特征自己的优劣，因此，对于一个待评价的特征子集，wrapper方法需要

训练一个分类器，根据分类器的性能对该特征子集进行评价，wrapper方法中用以评价特征的学习算法是多种多样的，例如决策树、

神经网路、贝叶斯分类器、近邻法以及支持向量机等等。huswh提出了一种利用遗传算法作为搜索策略、决策树的分类准确性作为

子集评价标准的wrapper方法，lil等人用遗传算法结合人工神经网络进行特征选择和分类，并取得了较好的实验效果。inza等则利用贝叶斯

网络的性能作为自己评价标准，这些方法都是直接利用分类器的分类性能来评价特征子集的优劣

优点：相对于filter方法，wrapper方法找到的特征子集分类性能通常更好

缺点：wrapper方法选出的特征通用性不强，当改变学习算法时，需要针对该学习算法重新进行特征选择，由于每次对子集的

评价都要进行分类器的训练和测试，所以算法计算复杂度很高，尤其对于大规模数据集来说，算法的执行时间越长

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。