在大二第一学期因为兴趣原因,自己学习了一些数据分析的算法,这里面便包含决策树,总的来说,学习的情况还是比较良好的,有那个意愿自己去学习.现在想想,那时的学习过程还是挺艰辛的,因为其实几种决策树,ID3,C4.5,CART之间的区别,当时在网上是有很多说法的,或者说其实很多说法说的都对,但都是答案的一部分,当时查了很久不得其解,比如说有的说CART跟其他两种的区别在于用GINI属性来划分属性,有的说是因为既可以进行分类也可以进行回归,既可以处理离散属性,也可以处理连续的.其实这些都是正确的,只是有些博客说的片面了点而已.
现在回过头来再次学习,一方面由于熟悉的原因,另一方面感觉自己阅读代码的能力还是有所进步的(主要是python),整个算法的流程还是能够比较快地梳理出来的.
一. 决策树介绍
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。