Decision Tree
概念:决策树(decision tree)
官方版:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
我的理解:这种数据结构就是用来分类的,它根据提供的数据的特征向量和类别来构建。每一个特征都用区分的作用,一步步选择最有区分度的特征来划分数据,这个区分度就是用信息熵的变化来衡量的。
信息熵:就是可能发生事件的信息量的期望。通俗的解释就是 如果有n件事情可能会发生其中一件,如果有一个先知能准确的预测某件事会发生并把预测结果告诉你,那么你就获得了这个事件的信息。但是事实上并没有先知告诉你结果。你所知道的只是每一件事发生的概率,把每件事发生的概率乘以它的信息量并累加起来就是信息获取的期望。
信息熵的变化:若某一个特征能最大的改变信息熵,那么这个特征带来的信息量一定很大。比如有10个未知生物,如果告诉你其中某一个能算数学题,那几乎可以肯定它就是人。所以能算数学题这个特征能带来的信息熵的变化是最大的,同时用这个特征来分类也是非常好的。决策树就是利用这一点来一步步构建的
下面来看代码
def calcShannoEnt(dataSet):
16 numEntries=len(dataSet) #有多少条训练数据
17 labelCounts={} #用来记录各个类别的数据的条数
18 for piece in dataSet: #遍历训练数据的每一条
19 curLabel=piece[-1] #curLabel记录每一条数据的种类
20 if curLabel not in labelCounts.keys():
21 labelCounts[curLabel]=1
22 else:
23 labelCounts[curLabel]+=1