用Python实现特征工程之特征选择——过滤法、包装法、嵌入法

写代码的老教授

于 2024-08-08 21:39:13 发布

阅读量596

点赞数 6

分类专栏：特征工程文章标签： python 人工智能

本文链接：https://blog.csdn.net/qq_41698317/article/details/141036768

版权

特征工程专栏收录该内容

9 篇文章 0 订阅

订阅专栏

特征选择是特征工程中的一个关键步骤，旨在通过选择与目标变量最相关的特征来提高模型的性能、减少计算开销和避免过拟合。特征选择方法主要包括过滤法（Filter Method）、包装法（Wrapper Method）和嵌入法（Embedded Method）。下面是对这三种方法的详细讲解：

1. 过滤法（Filter Method）

过滤法是一种预处理技术，它在构建模型之前根据特征的统计特性来选择特征。这种方法独立于任何机器学习算法，通常通过计算特征和目标变量之间的相关性来评估特征的重要性。

常见的过滤法包括：

方差选择法：移除低方差特征，因为这些特征对目标变量的贡献很小。
相关系数法：计算每个特征与目标变量之间的相关系数（如皮尔逊相关系数、斯皮尔曼相关系数），选择相关系数较大的特征。
卡方检验：用于分类问题，通过计算每个特征与目标变量之间的卡方统计量来选择特征。
互信息法：通过计算特征和目标变量之间的互信息量来选择特征。

优点：

计算效率高，适用于大规模数据集。
不依赖于具体的机器学习模型，具有通用性。

缺点：

不考虑特征之间的交互作用，可能会忽略一些重要特征组合。

案例代码：使用方差选择法和相关系数法进行特征选择

import pandas as pd
from sklearn.datasets import load_boston
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_regression

# 加载数据集
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# 方差选择法
selector = VarianceThreshold(threshold=0.1)
X_variance = selector.fit_transform(X)
print("Variance Threshold: ", X.columns[selector.get_support()])

# 相关系数法
selector = SelectKBest(score_func=f_regression, k=5)
X_correlation = selector.fit_transform(X, y)
print("Correlation Coefficient: ", X.columns[selector.get_support()])

案例运行结果：

Variance Threshold:  ['ZN' 'INDUS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT']
Correlation Coefficient:  ['RM' 'PTRATIO' 'LSTAT' 'INDUS' 'NOX']

2. 包装法（Wrapper Method）

包装法使用机器学习模型来评估特征集的质量，通过迭代地添加或移除特征来选择最优特征子集。这种方法通常基于模型的性能（如准确率、AUC等）来评估特征的重要性。

常见的包装法包括：

递归特征消除（RFE）：递归地训练模型，并根据特征的重要性移除最不重要的特征，直到达到预定的特征数量。
前向选择：从空特征集开始，逐步添加对模型性能提升最大的特征。
后向消除：从全特征集开始，逐步移除对模型性能影响最小的特征。

优点：

考虑特征之间的交互作用，选择的特征集更具代表性。
直接优化模型性能，结果更符合预期。

缺点：

计算开销大，尤其是在特征数量和数据量很大的情况下。
易受过拟合影响，特别是在数据量较少时。

案例代码：使用递归特征消除（RFE）进行特征选择

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# 使用线性回归模型
model = LinearRegression()

# 递归特征消除
selector = RFE(model, n_features_to_select=5, step=1)
X_rfe = selector.fit_transform(X, y)
print("RFE Selected Features: ", X.columns[selector.get_support()])

案例运行结果：

RFE Selected Features:  ['CRIM' 'RM' 'DIS' 'B' 'LSTAT']

3. 嵌入法（Embedded Method）

嵌入法在模型训练过程中同时进行特征选择，利用模型的内在机制来选择特征。这种方法将特征选择嵌入到模型训练过程中，常见的嵌入法包括正则化方法和基于树模型的方法。

常见的嵌入法包括：

L1正则化（Lasso）：在损失函数中添加L1正则化项，鼓励产生稀疏权重向量，即将不重要的特征权重降为零，从而实现特征选择。
树模型特征重要性：基于决策树模型（如随机森林、梯度提升树）的特征重要性得分来选择特征，这些模型天然能够度量特征的重要性。
Elastic Net：结合了L1和L2正则化的优点，既能实现稀疏特征选择，又能处理特征之间的共线性问题。

优点：

特征选择和模型训练同时进行，效率高。
利用模型内在机制进行特征选择，结果更具鲁棒性。

缺点：

依赖于具体的模型，不具有通用性。
对于某些复杂模型（如深度神经网络），嵌入法的特征选择效果可能不明显。

案例代码：使用L1正则化（Lasso）进行特征选择

from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 使用Lasso进行特征选择
lasso = Lasso(alpha=0.1)
lasso.fit(X_scaled, y)
print("Lasso Selected Features: ", X.columns[lasso.coef_ != 0])

案例运行结果：

Lasso Selected Features:  ['RM' 'TAX' 'PTRATIO' 'B' 'LSTAT']

案例代码：使用随机森林进行特征选择

from sklearn.ensemble import RandomForestRegressor

# 使用随机森林模型
model = RandomForestRegressor(n_estimators=100)

# 训练模型
model.fit(X, y)

# 获取特征重要性
importances = model.feature_importances_
indices = np.argsort(importances)[::-1]

# 打印特征重要性
print("Random Forest Feature Importances:")
for i in range(X.shape[1]):
    print(f"{i+1}. Feature {X.columns[indices[i]]} ({importances[indices[i]]})")

案例运行结果：

Random Forest Feature Importances:
1. Feature LSTAT (0.3745458730611166)
2. Feature RM (0.3757282346582698)
3. Feature PTRATIO (0.09123291765421574)
4. Feature NOX (0.045667057173743876)
5. Feature DIS (0.03974384080069023)
...

这些示例展示了不同特征选择方法在特定数据集上的应用和结果。每种方法都有其优缺点，选择合适的方法应根据具体的数据特性和应用场景。

4. 总结

选择合适的特征选择方法取决于数据集的规模、特征数量、计算资源以及具体的应用场景。一般情况下，可以先使用过滤法进行初步筛选，再结合包装法或嵌入法进行更精细的特征选择，以优化模型性能。

写代码的老教授

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
用Python实现特征工程之特征选择——过滤法、包装法、嵌入法

选择合适的特征选择方法取决于数据集的规模、特征数量、计算资源以及具体的应用场景。一般情况下，可以先使用过滤法进行初步筛选，再结合包装法或嵌入法进行更精细的特征选择，以优化模型性能。
复制链接

扫一扫

专栏目录