Python大数据分析与机器学习学习笔记
1、决策树模型搭建
# 模型搭建代码汇总import pandas as pd# 1.读取数据与简单预处理df = pd.read_excel('员工离职预测模型.xlsx')df = df.replace({'工资': {'低': 0, '中': 1, '高': 2}})# 2.提取特征变量和目标变量X = df.drop(columns='离职')y = df['离职']# 3.划分训练集和测试集from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)# 4.模型训练及搭建from sklearn.tree import DecisionTreeClassifiermodel = DecisionTreeClassifier(max_depth=3, random_state=123)model.fit(X_train, y_train)
2、graphviz插件安装与环境变量部署
本小节主要讲解一下graphviz插件的安装与环境变量部署,为之后将决策树模型可视化做准备。
2.1 graphviz插件下载
搭建完决策树模型后,我们可以通过graphviz插件将其可视化呈现出来。首先需要安装一下graphviz插件,其下载地址为:https://graphviz.gitlab.io/download/,以Windows版本为例,在下载网站上选择下图框中内容:Stable 2.38 Windows install packages。
然后下载下图所示的msi文件:
下载完该msi文件后进行安装,注意,要记住下图所示的安装的文件路径,之后进行环境变量部署的时候会用到。
2.2 环境变量部署
安装完graphviz后我们需要进行环境变量部署,所谓环境变量部署,就是把安装的软件部署到整个电脑系统环境中,这样在电脑的各个地方都可以调用配置好的软件。其配置方法如下:
1.右键点击我的电脑,选择“属性”选项,如下图所示:
2.在弹出的界面中选择“高级系统设置”,如下图所示:
3.如下图所示,在弹出的系统属性界面中,选择“环境变量”,然后在弹出的“环境变量”弹出窗内选择“系统变量”中的Path那一行,然后点击“编辑”按钮。