机器学习九-特征选择的统计方法

最新推荐文章于 2025-04-11 13:38:26 发布

Carrie_Lei

最新推荐文章于 2025-04-11 13:38:26 发布

阅读量802

点赞数 6

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/finly4599/article/details/141373562

版权

机器学习专栏收录该内容

26 篇文章

订阅专栏

在机器学习中，特征选择是提高模型性能的重要步骤。通过使用统计方法（如方差、卡方检验、相关系数），可以有效地选择相关特征，剔除冗余或不相关的特征，从而简化模型、减少训练时间并提高模型的泛化能力。

1. 方差选择法（Variance Threshold）

方差选择法是一种简单的特征选择方法，通过去除方差低于某一阈值的特征来剔除不变或变化较小的特征。

原理：
- 方差表示特征值的离散程度。如果一个特征的方差接近零，说明该特征在不同样本中变化很小，对分类或回归任务的贡献较小。
- 方差阈值法通过设定一个阈值，只保留方差大于该阈值的特征。
使用示例：

from sklearn.feature_selection import VarianceThreshold

# 假设我们有一个数据集 X
selector = VarianceThreshold(threshold=0.1)
X_selected = selector.fit_transform(X)

优点：简单高效，适合初步剔除常量特征或近似常量特征。
缺点：只能处理数值型数据，无法考虑特征与目标变量之间的关系。

2. 卡方检验（Chi-Square Test）

卡方检验主要用于分类任务，通过计算特征与目标变量之间的卡方统计量，选择与目标变量独立性最小的特征，即那些与目标变量关系最密切的特征。

原理：
- 卡方检验适用于分类数据，通过检验特征与目标变量的独立性来选择特征。卡方统计量越大，说明特征与目标变量之间的关系越强。
- 适合处理离散型数据，例如分类变量。
使用示例：

from sklearn.feature_selection import SelectKBest, chi2

# 假设我们有一个数据集 X 和目标变量 y
selector = SelectKBest(chi2, k=10)  # 选择与目标变量关系最密切的 10 个特征
X_selected = selector.fit_transform(X, y)

优点：适合处理分类数据，计算简单。
缺点：只能处理非负数值特征，且仅能用于分类问题。

3. 相关系数（Correlation Coefficient）

相关系数衡量两个变量之间的线性相关性，常用的相关系数包括皮尔逊相关系数（Pearson Correlation Coefficient）和斯皮尔曼等级相关系数（Spearman’s Rank Correlation）。

原理：
- 皮尔逊相关系数：衡量两个变量之间的线性相关性，取值范围为 [-1, 1]，越接近 1 或 -1，表示线性相关性越强。
- 斯皮尔曼等级相关系数：用于非线性单调关系的变量间相关性分析，适用于非正态分布的数据。
使用示例：

import pandas as pd

# 假设我们有一个数据集 df
corr_matrix = df.corr()  # 计算皮尔逊相关系数矩阵

# 筛选与目标变量相关性高的特征
target_corr = corr_matrix['target'].abs().sort_values(ascending=False)
selected_features = target_corr[target_corr > 0.5].index  # 选择相关性大于 0.5 的特征

优点：易于理解和实现，适用于处理连续型数据。
缺点：只能衡量线性关系，无法捕捉非线性关系；高相关性并不意味着因果关系。

4. 互信息法（Mutual Information）

互信息法用于测量两个变量之间的信息共享程度，可以用于特征选择。互信息越大，表示特征与目标变量之间的关系越强。

原理：
- 互信息度量两个随机变量之间的不确定性减少程度。互信息法可以捕捉线性和非线性关系。
- 对于分类和回归任务，均可使用互信息法进行特征选择。
使用示例：

from sklearn.feature_selection import mutual_info_classif, SelectKBest

# 假设我们有一个数据集 X 和目标变量 y
selector = SelectKBest(mutual_info_classif, k=10)
X_selected = selector.fit_transform(X, y)