7000字精华总结，Pandas/Sklearn进行机器学习之特征筛选，有效提升模型性能

最新推荐文章于 2021-11-20 12:00:00 发布

欣一2002

最新推荐文章于 2021-11-20 12:00:00 发布

阅读量394

点赞数

文章标签：可视化 python 机器学习数据分析深度学习

本文链接：https://blog.csdn.net/weixin_43373042/article/details/121433892

版权

本文详细介绍了如何利用Pandas和Sklearn进行机器学习的特征筛选，包括计算相关性、递归消除法、正则化等方法，以提高模型的精准度、降低过拟合风险并加快训练速度。文中通过实例分析了连续型和离散型变量的处理策略，展示了特征重要性的计算和Select_K_Best算法的应用。

摘要由CSDN通过智能技术生成

今天小编来说说如何通过pandas以及sklearn这两个模块来对数据集进行特征筛选，毕竟有时候我们拿到手的数据集是非常庞大的，有着非常多的特征，减少这些特征的数量会带来许多的好处，例如

提高预测的精准度
降低过拟合的风险
加快模型的训练速度
增加模型的可解释性

事实上，很多时候也并非是特征数量越多训练出来的模型越好，当添加的特征多到一定程度的时候，模型的性能就会下降，从下图中我们可以看出，

因此我们需要找到哪些特征是最佳的使用特征，当然我们这里分连续型的变量以及离散型的变量来讨论，毕竟不同数据类型的变量处理的方式不同，我们先来看一下对于连续型的变量而言，特征选择到底是怎么来进行的。

计算一下各个变量之间的相关性

我们先导入所需要用到的模块以及导入数据集，并且用pandas模块来读取

from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lasso

这次用到的数据集是机器学习中尤其是初学者经常碰到的，波士顿房价的数据集，其中我们要预测的这个对象是MEDV这一列

x = load_boston()
df = pd.DataFrame(x.data, columns = x.feature_names)
df["MEDV"] = x.target
X = df.drop("MEDV",1)   #将模型当中要用到的特征变量保留下来
y = df["MEDV"]          #最后要预测的对象
df.head()

output

CRIM    ZN  INDUS  CHAS    NOX  ...    TAX  PTRATIO       B  LSTAT  MEDV
0  0.00632  18.0   2.31   0.0  0.538  ...  296.0     15.3  396.90   4.98  24.0
1  0.02731   0.0   7.07   0.0  0.469  ...  242.0     17.8  396.90   9.14  21.6
2  0.02729   0.0   7.07   0.0  0.469  ...  242.0     17.8  392.83   4.03  34.7
3  0.03237   0.0   2.18   0.0  0.458  ...  222.0     18.7  394.63   2.94  33.4
4  0.06905   0.0   2.18   0.0  0.458  ...  222.0     18.7  396.90   5.33  36.2

我们可以来看一下特征变量的数据类型

df.dtypes

output

CRIM       float64
ZN         float64
INDUS      float64
CHAS       float64
NOX        float64
RM         float64
AGE        float64
DIS        float64
RAD        float64
TAX        float64
PTRATIO    float64
B          float64
LSTAT      float64
MEDV       float64
dtype: object

我们看到都是清一色的连续型的变量，我们来计算一下自变量和因变量之间的相关性，通过seaborn模块当中的热力图来展示，代码如下

plt.figure(figsize=(10,8))
cor = df.corr()
sns.heatm

最低0.47元/天解锁文章

欣一2002

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫