python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例...

最新推荐文章于 2023-08-22 16:19:02 发布

Blair Long

最新推荐文章于 2023-08-22 16:19:02 发布

阅读量2.1k

点赞数 2

文章标签： python 特征选择方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42512966/article/details/113643065

版权

本文详细介绍了机器学习中的一些特征选择方法，包括变量排名、相关性矩阵及热图、模型内置特征重要性、递归式特征消除、特征序列选择和置换特征重要性，并提供了相应的Python代码示例。特征选择能提高模型预测精度、减少训练时间和模型复杂性。

摘要由CSDN通过智能技术生成

花费了很长时间整理编辑，转载请联系作者授权，违者必究。

特征选择(Feature selection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。

首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常会给模型训练产生噪声，去掉这些噪声更有利于进行决策。

提高准确性：减少误导性数据意味着提高了建模准确性。

减少训练时间：更少的数据点降低了算法复杂度，并使训练速度更快。

减低模型复杂性：降低了模型的复杂性，并使其更易于解释。

Topic 1：变量排名(Variable Ranking)

变量排名是通过某些评分函数的值对要素进行排序的过程，通常会测量要素相关性。通常我们可以通过常见的统计检验来选择与输出变量关系最密切的那些特征。scikit-learn中的SelectKBest就是根据不同的统计测试选取k个分数最高的变量。

整个程序都是以sklearn自带的波士顿房价数据为例，进行变量选择。通过load_boston()，我们可以调取所需数据。下面的程序是对训练数据的提取。

import pandas as pd

#load sklearn built-in Boston dataset

from sklearn.datasets import load_boston

#Loading the dataset

x = load_boston()

data = pd.DataFrame(x.data, columns = x.feature_names)

data["MEDV"] = x.target

X = data.drop("MEDV",1) #Remove Target Variable to Get Feature Matrix

y = data["MEDV"] #Target Variable

data.head()数据样本

以下通过线性回归的F值来对各输入变量进行排序，并选出前五个预测效果最好的变量。我们可以看出，LSTAT分数最高，预测能力最好：

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import f_regression

#apply SelectKBest class to extract top 5 best features

bes

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。