python选择最佳特征-相关性分析

最新推荐文章于 2024-04-17 21:31:09 发布

perseverance_lucky

最新推荐文章于 2024-04-17 21:31:09 发布

阅读量1.4k

点赞数

分类专栏：数据分析机器学习文章标签： python

本文链接：https://blog.csdn.net/weixin_43557093/article/details/119145012

版权

数据分析同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

相关性分析

最佳苦于如何从众多特征中找到最佳特征，老师建议先使用相关性分析，数据分析小白来记录一下这个过程。
发现一个很好的方法：sklearn.feature_selection 的 SelectKBest

互信息法

互信息法主要两个点：
（1）注意区分离散数据和连续数据
（2）输出一般为索引，但只获得索引对特征量大的数据集非常不友好，需要想办法获得特征名

针对（1）可以考虑重写SelectKBest的fit方法
参考：如何使用混合离散和连续特征的互信息来选择KBest?

class SelectKBestCustom(SelectKBest):

    def fit(self, X, y,discrete_features='auto'):
        X, y = check_X_y(X, y, ['csr', 'csc'], multi_output=True)

        if  not callable(self.score_func):
            raise TypeError("the score function should be a callable, %s (%s)""was passed."%(self.score_func, type(self.score_func)))

        self._check_params(X,y)

        score_func_ret = self.score_func(X, y, discrete_features)
        if isinstance(score_func_ret, (list, tuple)):
            self.scores_, self.pvalues_ = score_func_ret
            self.pvalues_ = np.asarray(self.pvalues_)
        else:
            self.scores_ = score_func_ret
            self.pvalues_ = None

        self.scores_ = np.asarray(self.scores_)
        return self

最后调用自己的类

selector_mic = SelectKBestCustom(mic, k=12)
#discrete_features输入离散变量的索引
selector_mic.fit(x_array, y_array,discrete_features = [])
selector_mic.transform(x_array)

针对（2）对于我比较有效的方法如下：

cols = selector_mic.get_support(indices=True)
features_new_mic = data_frame.columns[cols]

卡方验证

卡方验证也是比较推荐的相关性验证方法，同样使用SelectKBest
这里并没有用改写的类，其一是因为chi2方法本身只支持两个参数，其二是我其实也并不清楚卡方验证是不是本身就会考虑离散型数据和连续型数据，有懂的小伙伴欢迎解答~

selector_chi2 = SelectKBest(chi2, k=12)
selector_chi2.fit(x_array, y_array)
selector_chi2.transform(x_array)
cols_chi2 = selector_chi2.get_support(indices=True)
features_new_chi2 = data_frame.columns[cols_chi2]

perseverance_lucky

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python选择最佳特征-相关性分析

相关性分析最佳苦于如何从众多特征中找到最佳特征，老师建议先使用相关性分析，数据分析小白来记录一下这个过程。发现一个很好的方法：sklearn.feature_selection 的 SelectKBest互信息法互信息法之前碰到的瓶颈在于最后得到的是索引矩阵，无法返回特征名，在网上找到了2个方法应对这种情况：我先试试再来反馈。# Create and fit selectorselector = SelectKBest(f_classif, k=5)selector.fit(features_
复制链接

扫一扫