Sklearn中的f_classif和f_regression

最新推荐文章于 2025-03-30 10:57:19 发布

jetFlow

最新推荐文章于 2025-03-30 10:57:19 发布

阅读量2.6w

点赞数 43

分类专栏： sklearn-教程机器学习文章标签：机器学习统计学 sklearn-教程特征选择

本文链接：https://blog.csdn.net/jetFlow/article/details/78884619

版权

本文介绍了Sklearn中的f_classif和f_regression方法，它们用于评估特征与因变量的相关性。f_classif基于方差分析，适用于分类问题，通过比较不同类别中特征的均值差异来评估预测能力。f_regression则计算特征与连续因变量的样本相关系数，并转化为F统计量，适用于回归问题。f值越大，表明特征与因变量的相关性越强，可用于特征选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这两天在看Sklearn的文档，在feature_selection一节中遇到俩f值，它们是用来判断模型中特征与因变量的相关性的。刚开始看的时候一头雾水，因为需要数理统计中方差分析的背景，现在在这里简要剖析一下这两个方法的原理和用法。
我们先来看看sklearn的API是怎么解释这两个方法的：

Compute the ANOVA F-value for the provided sample. ——sklearn.feature_selection.f_classif

f_calssif计算ANOVA中的 $f$ 值，这和特征选择怎么搭上关系？？？
下面是对f_regression的解释，更晕了。。

Univariate linear regression tests.
Linear model for testing the individual effect of each of many regressors. This is a scoring function to be used in a feature seletion procedure, not a free standing feature selection procedure.
This is done in 2 steps:
The correlation between each regressor and the target is computed, that is,
((X[:, i] - mean(X[:, i])) * (y - mean_y)) / (std(X[:, i]) * std(y)).
It is converted to an F score then to a p-value.
——sklearn.feature_selection.f_regression

方差分析（ANOVA）

在传统的统计学中 $f$ 值是用于方差分析的（analysis of variance），感兴趣的旁友可以参考任意一本统计学教材，里面有关于方差分析的详细推导和流程，我在这里就做一下简单的引入。传统的方差分析（或者说是多重均值比较）是这样的，举个经典的栗子：
我们开发出了一种降血压的药，需要检验这个降血压药品的药效如何。我们就做了如下实验，给定不同剂量，分别是0，1，2，3，4这四个级别的剂量（0剂量表示病人服用了安慰剂），给4组病人服用，在一定时间后测量病人的血压差，在得到数据以后。我们要问，这种新药是不是有显著药效，也就是说病人的血压差是不是显著的不等于0。
数据如下：

剂量	血压差
0	$x_{01}$ $x_{02}$ … $x_{0n_0}$
1	$x_{11}$ $x_{12}$ … $x_{1n_1}$
2	$x_{21}$ $x_{22}$ … $x_{2n_2}$
3	$x_{31}$ $x_{32}$ … $x_{3n_3}$
4	$x_{41}$ $x_{42}$ … $x_{4n_4}$