决策树是机器学习的十大算法之一,可用于解决分类和回归问题。决策树的结构很像二叉树,通过一层一层的节点,来对我们的样本进行分类。决策树算法的可解释性非常的好,通过绘制决策树,我们可以很清楚理地解算法的工作原理,同时也方便向别人进行展示。这一节,我们的重点是画决策树,对于决策树算法的原理以及细节,我们不做深入的探讨。
我们使用iris数据集,它有150个样本,5个特征。接下来我们就以iris数据集为例,来进行决策树的绘制。
iris数据集链接:
链接:https://pan.baidu.com/s/1YCyvnNH1R56RnUDl3KxKMg
提取码:yfoh
下面是代码部分:
#导入数据分析的常用工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
#读取iris数据集,具体在写代码的过程中使用df.head()查看数据集
columns = ['petal_length','petal_width','calyx_length','calye_width','category']
df = pd.read_csv('D:\\Py_dataset\\iris.data',sep = ',',names = columns)
#对数据集中的非数值型特征进行转换
df['category'].unique()
[out]:array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)
categor