决策树分类器易于可视化并且易于理解。
iris数据集http://archive.ics.uci.edu/ml/datasets/Iris
这个数据集是非常典型的分类人工数据集,有3类花,每个数据有4个特征(sepal lenght,sepal width,petal length,petal width),每一类花有50个,所以这个数据集有150个数据。
我们的目标是:
(1)导入数据集
(2)训练一个分类器
(3)预测新数据的标签
(4)可视化决策树
python 的sklearn模块里可以直接导入iris数据集:
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">from sklearn.datasets import load_iris</span>
iris=load_iris()
print iris.feature_names #打印特征
print iris.target_names