概念
决策树是一个类似于流程图的树结构,可用于数据预测,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个属性输出,而每个树叶节点代表类或类分布。树的最顶层为根结点,结构图如下:
其中某一个数据实例包含特征[A,B,C,Boolean],以A为根结点判断A特征取值(A-1,A-2,A-3),在特征A-2中只存在一种情况,因此不需要在分枝决策;在特征A-1,A-3中还存在一种以上的可能性,因此在以B,C特征为节点继续进行判断,知道判断特征的结果只剩下一种。
熵(entropy)
1948年,香农提出了 ”信息熵(entropy)“的概念一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息==>信息量的度量就等于不确定性的多少。
比特(bit)来衡量信息的多少
-(p1log(p1)+p2log(p2)+……+p10*log(p10))
可写成函数
变量的不确定性越大(也就是X值越小),信息熵也就越大。
如例子:现在有如下数据(根据不同的情况买iphoneX的人进行统计)