一、决策树概念
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
决策树是一种十分常用的有监督学习分类方法。
决策树的生成主要分以下两步,这两步通常通过学习已知分类结果的有标签样本来实现。
节点的分裂:一般当一个节点所代表的属性无法给出判断时,则选择将这一节点分成2个子节点(如不是二叉树的情况会分成n个子节点)
阈值的确定:选择适当的阈值使得分类错误率最小 (Training Error)。
二、决策树适用场景:
决策树能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,希望更好的理解手上的数据的时候往往可以使用决策树,在实际应用中,受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石,例如随机森林。
三、决策树优缺点:
(1) 计算复杂度不高,输出结果易于理解
以ID3为例,每次运算都是基于某一列特征,特征计算完后,下次计算不考虑该最优特征,并且通过适当剪支可以简化复杂度
(2) 对中间值的缺失不敏感
(3) 可以处理不相关特征数据
是基于每一列特征来计算,不考虑特征之间的依赖关系
四、信息熵的深入理解:
信息熵用于度量信息的混乱程度,信息越混乱说明能够包含的信息量越多,则熵越大,例如一个声波,我们可以通过傅里叶变换分析其频谱看到其中的大量的信息;信息越有序说明包含的信息量越少,则熵越小,例如一条直线,这个信息太少了,则它的熵也非常小。
在数学上,对于任意一个向量,对其计算信息熵,可以证明出:当向量中每个值都相同的时候,熵最小。这样数学和通俗理解就对应上了。