修改linq结果集_pandas与决策树学习实例---Adult数据集（2）

最新推荐文章于 2022-10-23 14:38:44 发布

weixin_39934302

最新推荐文章于 2022-10-23 14:38:44 发布

阅读量196

点赞数

文章标签：修改linq结果集

在经过前期的学习后，我们需要一些实例操作来加深我们对pandas的熟悉程度。今天带来的是L在pandas学习之旅中，针对Adult数据集的一些学习笔记。

侦探L：pandas学习实例---Adult数据集（1）zhuanlan.zhihu.com

接上一篇结尾部分，我们接下去对数据集进行分析。

首先重温一下我们的数据集。

df.head()

df.info()

下面，我们依然继续研究工资与其他特征之间的联系。

这一次我们采用机器学习中常见的决策树，来研究其他特征对工资的影响。

（1）数据预处理

在上一篇的实验中我们也有看到，在工资这一列中，只有“<=50K”和“>50K”两种情况。

df['工资'].value_counts()

为了使用决策树模型对进行研究，我们需要对工资这一列数据进行一些处理，具体化处理如下：

我们将“>50K”的情况用1表示，“<=50K”的情况用0表示，研究什么条件下，工资会是“<=50K”和“>50K”。

df.loc[df['工资'] == ' <=50K', '工资'] = 0
df.loc[df['工资'] == ' >50K', '工资'] = 1

除此之外。我们还需要同时对“年龄”、“每周工作时间”以及刚刚处理过的“工资”这三列数据的数据类型进行一些修改（使用astype（）函数）：

df['年龄'] = df['年龄'].astype(int)
df['每周工作时间'] = df['每周工作时间'].astype(int)
df['工资'] = df['工资'].astype(int)

下面我们使用dtypes函数查看一下修改后的数据类型。

df.dtypes

同时，可以再确认一下数据集是否已修改成功：

df.head()

df.tail()

df.info()

没有缺失值，不需要进行缺失值处理。

同时，我们也可以看到，我们的数据中总共有两种类型的数据，分别为int和object，为了保证所有特征都能传入模型中，我们需要使用独热编码，将类别特征全部转换为数值类型（也即是将非数值型的数据转化为数值型）。

小科普：

独热编码_百度百科baike.baidu.com

在此之前，我们先看看那些特征是object，哪些是Int的：

df_categorical

df_categorical

df_numerical

下面，对类别特征进行独热编码：

df_tree = pd.concat([df[df_numerical],
                        pd.get_dummies(df[df_categorical])], axis=1)

查看一下编码后的数据维度：

df_tree.shape

喜欢的同学还可以看看编码后的数据集：（由于有96列，因此这里只能显示局部）

这个时候，我们我们的数据预处理环节基本结束~

（2）根据决策树模型，将数据集分割成训练集和测试集。

导入做决策树相应需要的包。

from sklearn import tree
from sklearn.model_selection import train_test_split

首先，将原数据集按特征和目标进行分割：

df_x = df_tree.drop(['工资'], axis=1)
df_y = df_tree['工资']

然后，使用train_test_split将数据分成训练集和测试集。

注意~在这里我们指定了拆分系数为0.3，也是说将7/10的数据作为训练集，剩下3/10的数据作为测试集。

X_train

拆分成功~查看一下拆分后训练集和测试集的数据。

X_train.shape

X_test.shape

下面开始建模，并使用X_train,和Y_train进行数据训练：

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(X_train, Y_train)

查看一下在测试集上的准确度（将经过训练集训练后的模型，应用到测试集里，并查看拟合的得分情况）

score = clf.score(X_test, Y_test) 
score

得分大概在0.781左右，不是很高，我们尝试进行调参（调节建立决策树的参数，后续我会针对这一块具体写一篇）

分数变成0.812，有所提高，但是这样一次一次的调参数，看上去效率有点低，有没有效率更高的做法呢？

下面我们使用GridSearchCV 网格搜索对决策树进行调参并返回最佳参数。

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier, export_graphviz
tree_params = {'max_depth': range(3, 14)}

locally_best_tree = GridSearchCV(DecisionTreeClassifier(random_state=17),
                                 tree_params, cv=5)

locally_best_tree.fit(X_train, Y_train)

查看一下结果：

print("最优深度：{}".format(locally_best_tree.best_params_))

clf = tree.DecisionTreeClassifier(criterion="entropy",max_depth=6, random_state=17)
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test) 
print("最优深度下的得分情况：{}".format(score))

可以看到，得分情况有了进一步的提高。

根据结果，我们可以画出一个决策树~

import graphviz
clf = tree.DecisionTreeClassifier(criterion="entropy",max_depth=6, random_state=17)
clf = clf.fit(X_train, Y_train)
dot_data = tree.export_graphviz(clf
,out_file = None
,feature_names= feature_name
,class_names=["工资>50K","工资<=50K"]
,filled=True
,rounded=True
)
graph = graphviz.Source(dot_data)
graph

下面是max_depth=6, random_state=17的情况：

下面我们将参数调小一点（方便放图），让大家容易看一点。

下面，小伙伴要注意啦！！！

如果想要自己运行代码作出决策树的同学，需要安装相应的库。

1.安装graphviz：

下载地址：http://www.graphviz.org/。如果是windows，就在官网下载msi文件安装。安装完后要设置环境变量：将graphviz的bin目录加到PATH。

2.安装python插件graphviz：

pip install graphviz

3.安装python插件pydotplus：

pip install pydotplus

（不懂的同学可以百度一下~有空我也会专门写一篇这方面的文章）

除此之外，我们还可以用随机森林模型来实验一下我们的数据：

还是和上面一样，导入库、训练数据：

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=100, random_state=17)
rf.fit(X_train, Y_train)

查看拟合的得分情况：

score = rf.score(X_test, Y_test) 
print("随机森林的得分情况：{}".format(score))

以上便是<pandas与决策树学习实例---Adult数据集（2）>的内容，感谢大家的细心阅读，同时欢迎感兴趣的小伙伴一起讨论、学习，想要了解更多内容的可以看我的其他文章，同时可以持续关注我的动态~

weixin_39934302

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
修改linq结果集_pandas与决策树学习实例---Adult数据集（2）

在经过前期的学习后，我们需要一些实例操作来加深我们对pandas的熟悉程度。今天带来的是L在pandas学习之旅中，针对Adult数据集的一些学习笔记。侦探L：pandas学习实例---Adult数据集（1）zhuanlan.zhihu.com接上一篇结尾部分，我们接下去对数据集进行分析。首先重温一下我们的数据集。df.head()df.info()下面，我们依然继续研究工资与其他特征之间的联系...
复制链接

扫一扫