emmmmmm....有点烧脑子
决策树,通俗的理解就是根据每个问题进行判断,然后最终往下找到答案的过程,类似于一棵树,可以用下图(相亲对象的选择)来理解:
获得一棵决策树,首先要求的最优信息增益,信息增益就是求前边每一列对最最后一列这个可能标签的约束程度,熵代表了最后一列标签取值的随机性(貌似这样吧,我是小渣渣自己这样理解的,头都大了),下图可以看出每种信息增益的情况,可以理解为用哪种特征划分比较合适:
数据集,前四列为 '年龄', '有工作', '有自己的房子', '信贷情况',最后一列为是否贷款给这个人
下列代码可以分为几个步骤:
1.创建如上数据