顾名思义,训练完成的决策树的功能就是能够决策树能够识别输入的元组的类型。比较有名的决策树算法有C4.5,ID3,CART(他们的主要区别是利用的分裂准则不同)。
构造决策树简单的来说就是一句话,每次利用分裂准则进行属性的选择和分裂(毕竟树就是由一个个属性的节点构成,所以所有的算法都是集中在判断属性节点的位置而已)
分裂准则:一棵树越顶层的节点对决策的走向影响越大(和位于高层的人说话影响大一个意思),所以分裂准则就是选择当前没有分裂的最重要的一个属性进行分裂(选择分裂的属性和如何分裂),属性划分的原则就是尽量让每个划分的元组是同一个类(毕竟决策树的作用就是分类)
关于剪枝:任何分类算法都无可避免的要对数据中的噪声和离群点进行处理,在决策树中采取的方式就是剪枝。
1.先剪枝:就是每次进行属性分裂是判断这条分支有没有继续分裂下去的必要
2.后剪枝:就是在树构造完成后再去掉不合理的分支
至于如何选择分裂属性和一个分支有没有继续的必要额算法我不打算介绍了毕竟只要查查就知道了。