这是我个人的学习笔记,可能有错误,不要见怪,不过程序都是运行过的,可以用的。
这一篇记录的是在上一篇读取的excel表格的基础上构建一个决策树,顺便复习下决策树的构建,决策树可以是二叉树也可以是非二叉树,它从一个根节点开始,通过判断数据的属性,一直到到达叶子结点为止,叶子结点就是输出的结果,例如:
枪 血 子弹 攻击
1 1 1 1
0 1 0 0
0 0 0 0
1 0 1 1
其中1表示真,0表示假,是否攻击就是决策树的判断结果,这里我是通过判断信息增益来为数据分类的,哪个属性的信息增益最大,就把它当作根节点,事实上用sklearn也好像不需要知道得太多,就是一个语句搞定了…,下面是代码:
from sklearn import tree
import numpy as np
import pydotplus
from sklearn.externals.six import StringIO
from pyexcel_xls import get_data<