决策树是一个很神奇的东西,原理上,只要你这棵树足够大,足够复杂,其准确度可以媲美神经网络。当然,此时过拟合的可能性也非常高了。原理性的东西不多聊了,直接切题。
本次技术分享贴主要跟大家分享一下如何在python的sklearn中使用决策树进行数据的训练和预测。
(1)首先,大家自行安装sklearn包,此处假设大家都已经有这个包了,我们先导入相关包
# tree是建树用的模块,datasets是将会使用到的数据集的模块
from sklearn import tree,datasets
# train_test_split是skl提供的一个快捷切分和打乱数据的模块
from sklearn.model_selection import train_test_split
(2)我们加载一个官方的“鸢尾花数据集”
iris = datasets.load_iris()
该数据集包括四个属性:
花萼长度、花萼宽度、花瓣长度、花瓣宽度,
以及三个对应的分类:
0、1、2
其具体描述大家可自行查看
iris
(3)OK,现在我们取出他的数据和对应的label,在他的数据集里分别为“data”和“target”
data = iris['data']
target = iris['target']