特征选择技巧：过滤法、包装法、嵌入法

最新推荐文章于 2023-08-08 23:48:56 发布

PyTechShare

最新推荐文章于 2023-08-08 23:48:56 发布

阅读量1.4k

点赞数

分类专栏： Python教程-基础文章标签：机器学习 sklearn python

本文链接：https://blog.csdn.net/qq_33578950/article/details/130135670

版权

Python教程-基础专栏收录该内容

47 篇文章 8 订阅

订阅专栏

本文介绍了特征选择的三种主要方法：过滤法、包装法和嵌入法，包括它们的原理、优缺点及Python代码实例。特征选择有助于降低维度、减少噪声，提高模型性能。过滤法基于统计属性，包装法通过学习器性能选择，嵌入法则在训练过程中决定特征重要性。

摘要由CSDN通过智能技术生成

在本文中，我将向大家介绍特征选择技巧：过滤法、包装法和嵌入法。特征选择是机器学习和数据挖掘中非常重要的一个环节，它可以帮助我们提取有价值的信息，降低计算复杂度，提高模型性能。通过本文，您将了解到这三种方法的原理和优缺点，并通过代码实例来展示它们在实际应用中的效果。

文章目录

1. 什么是特征选择？

特征选择，又称为属性选择或变量选择，是指从原始特征集合中选择一个子集，这个子集包含了对目标变量影响最大的特征。特征选择的目的是降低维度、减少噪声、提高模型的泛化能力和解释性。特征选择的方法主要有三类：过滤法、包装法和嵌入法。

2. 过滤法

过滤法（Filter Method）是一种基于特征本身的统计属性来选择特征的方法。它根据特征与目标变量之间的关联程度来进行选择。常用的过滤法有：卡方检验、相关系数、互信息等。

优点：计算简单，速度快。
缺点：可能忽略特征之间的相互关系。

3. 包装法

包装法（Wrapper Method）是一种基于学习器性能来选择特征的方法。它将特征选择看作是一个搜索问题，通过学习器的训练和评估来寻找最优的特征子集。常用的包装法有：递归特征消除（RFE）、前向选择（Forward Selection）、后向选择（Backward Selection）等。

优点：考虑了特征之间的相互关系，能够找到最优特征子集。
缺点：计算复杂度高，需要大量的计算资源和时间。

4. 嵌入法

嵌入法（Embedded Method）是一种在模型训练过程中进行特征选择的方法。它根据学习器的训练过程来决定哪些特征是重要的。常用的嵌入法有：LASSO回归、岭回归、决策树等。

优点：考虑了特征之间的相互关系，能够找到最优特征子集，同时计算复杂度相对较低。
缺点：与特定的学习器相关，不具备通用性。

5. 代码实例

下面是使用Python和scikit-learn库实现过滤法、包装法和嵌入法的简单示例：

import numpy as np
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X, y = data.data, data.target

# 过滤法 - 使用卡方检验选择最佳特征
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
print("Filtered features: \n", X_new[:5])

# 包装法 - 使用递归特征消除
model = LogisticRegression(solver='liblinear', multi_class='ovr')
rfe = RFE(model, n_features_to_select=2)
X_new = rfe.fit_transform(X, y)
print("Wrapped features: \n", X_new[:5])

# 嵌入法 - 使用随机森林进行特征选择
model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_
indices = np.argsort(importances)[-2:]
X_new = X[:, indices]
print("Embedded features: \n", X_new[:5])