目录
一、算法介绍
决策树(Decision tree)是一种基本的分类与回归算法,本次博客只讨论用于分类的决策树。
决策树,顾名思义,是一种基于树结构的决策选择模型,表示基于特征对实例分类的过程。它可以认为是if-then的规则集合,也可以认为是特征空间上的条件概率分布。决策树依据对某种特征的满足与否进行子集划分,整棵树的节点分为内部节点和叶子节点,内部节点对应作为划分依据的特征,叶子节点表示满足从根节点到该叶子节点路径上所有属性要求的实例的分类。
如下图所示(圆表示内部节点,方框表示叶子节点):
规定决策树的左子树表示满足父节点的要求,右子树表示不满足。如上图所示,第一象限的点表示满足X>0为真并且满足Y>0为真,即满足从根节点到该叶子节点路径上的所有要求, 最终确定了象限分类。
二、概念介绍
2.1、信息熵
熵是由被评为20世纪最聪明的人之一的克劳德·香农提出的。作为信息论的创始人,有人这样评价他,“贝尔实验室和MIT的很多人将香农与爱因斯坦相提并论,但有些人认为这是不公平的——对香农不公平。”
熵是用来衡量信息的不确定程度的物理量,熵的值越大,信息的混乱程度就越大,熵的值越小,信息的混乱程度就越低。
设离散变量X的概率分布为:
那么随机变量X的熵定义为:
此处log的底一般为2或者自然对数e,本博客中取e作为底,熵的单位为bit,若p=0,那么认为plogp=0。
上图的信息熵为: