【机器学习系列】从导入数据到决策树可视化：一步步教你构建优化的机器学习模型

青春之我_XP

已于 2024-06-05 17:32:51 修改

阅读量235

点赞数 2

文章标签：机器学习数据库人工智能分类决策树数据挖掘 python 数据分析

于 2024-05-22 11:51:16 首次发布

本文链接：https://blog.csdn.net/2301_81199775/article/details/139116038

版权

一、导入数据

二、进行独热编码

三、通过网格搜索进行参数调优，选择最优参数

四、利用训练好的参数建立决策树模型并进行交叉验证

五、将决策树可视化

一、导入数据

import pandas
data=pandas.read_csv('决策树.csv',
                      engine='python',encoding='utf8')

二、进行独热编码

#需要进行独热处理的列
oneHotColumns = ['性别','父母鼓励']

from sklearn.preprocessing import OneHotEncoder
#新建独热编码器
oneHotEncoder = OneHotEncoder(drop='first')
#训练独热编码器，得到转换规则
oneHotEncoder.fit(data[oneHotColumns])
#转换数据
oneHotData = oneHotEncoder.transform(data[oneHotColumns])

from scipy.sparse import hstack
#将独热编码所得的数据，和父母收入、IQ两列合并在一起
x=hstack([oneHotData, data.父母收入.values.reshape(-1,1),data.IQ.values.reshape(-1,1)])
y=data['升学计划']

三、通过网格搜索进行参数调优，选择最优参数

from sklearn.model_selection import GridSearchCV

#全部训练全部测试，会导致过拟合
'''
    max_depth=None, 
    max_leaf_nodes=None, 
'''
dtModel = DecisionTreeClassifier()
dtModel.fit(x, y)
dtModel.score(x, y)

dtModel = DecisionTreeClassifier()

#网格搜索，寻找最优参数
paramGrid = dict(
    max_depth=[1, 2, 3, 4, 5],
    max_leaf_nodes=[3, 5, 6, 7, 8],
)
dtModel = DecisionTreeClassifier()
grid = GridSearchCV(
    dtModel, paramGrid, cv=10,
    return_train_score=True
)
grid = grid.fit(x, y)

print('最好的得分是: %f' % grid.best_score_)
print('最好的参数是:')
for key in grid.best_params_.keys():
    print('%s=%s'%(key, grid.best_params_[key]))

四、利用训练好的参数建立决策树模型并进行交叉验证

dtModel = DecisionTreeClassifier(
    criterion='gini', 
    max_depth=4, 
    max_leaf_nodes=7
)

cross_val_score(dtModel, x, y, cv=10).mean()

#训练决策树模型
dtModel = DecisionTreeClassifier(
    max_depth=4, 
    max_leaf_nodes=7
)
dtModel.fit(x, y)

五、将决策树可视化

#将决策树模型导出为 dot 文件
from sklearn.tree import export_graphviz
with open('data.dot', 'w') as f:
    f = export_graphviz(dtModel, out_file=f)

#绘图命令
#dot -Tpng data.dot -o tree.png

#导入pydot模块
import pydot_ng as pydot
#导入内存IO模块

#from sklearn.externals.six import StringIO
from six import StringIO

#把dot文件，写入StringIO中
dot_data = StringIO()
'''
    class_names: dtModel.classes_
    feature_names: oneHotEncoder.get_feature_names()    
'''
export_graphviz(
    dtModel, 
    out_file=dot_data,
    class_names=["不计划", "计划"],
    feature_names=[
        '男性', '父母鼓励', '父母收入', '智商'
    ],
    filled=True, rounded=True, 
    special_characters=True
) 
#从字符串中读入dot，生成graph对象
graph = pydot.graph_from_dot_data(
    dot_data.getvalue()
) 
#设置所有的节点的字体属性为 Microsoft YaHei
graph.get_node("node")[0].set_fontname(
    "Microsoft YaHei"
)
#将图形保存到 opt_tree.png 文件中
graph.write_png(
    'opt_tree.png'
)

r = data.pivot_table(
    index='父母鼓励',
    columns='升学计划',
    values='学生ID', 
    aggfunc='count'
)

青春之我_XP

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习系列】从导入数据到决策树可视化：一步步教你构建优化的机器学习模型

在这篇博客中，我们将详细探讨如何从一个数据集开始，通过一系列的数据处理和模型优化步骤，最终构建出一个高效的决策树模型。首先，我们会讨论如何导入数据，并进行独热编码以处理分类变量。接着，我们将使用网格搜索进行参数调优，以选择最优的模型参数。然后，我们会利用这些训练好的参数建立决策树模型，并进行交叉验证以确保模型的稳定性和准确性。最后，我们将展示如何将决策树进行可视化，以便更直观地理解和解释模型的预测结果。无论你是机器学习的初学者，还是希望深化对决策树模型理解的研究者，这篇博客都将为你提供有价值的参考和指导。
复制链接

扫一扫