决策树的构成
形如一棵树,其中
- 非叶节点表判断
- 叶节点表结果
决策树的生成
生成决策树主要关心
- 节点的分裂
- 阈值的确定
决策树的类型
常用的决策树有ID3,C4.5和CART。其中CART一般优于其他树。
ID3
根据信息增益决定谁来做父节点,谁需要分裂。
熵越小,表示分类结果越好。也就是说分类的过程是熵不断减小的过程。因此,信息增益越大越好。
C4.5
ID3分割越细,分类结果越好,因此可能会导致过拟合。
C4.5对此进行了改进,利用信息增益率决定。信息增益除以分割太细的代价就是信息增益率。信息增益率越大越好。
CART(Classification And Regression Tree)
分类回归树,同时也是二叉树。利用基尼指数(Gini Index)决定。总体包含的类别越杂,基尼指数越大。因此,基尼指数越小越好。
CART是一个回归树,利用回归来决定是否终止划分。通过分析每个叶节点中数据的均值方差,当方差小于一定值时停止分裂,以换取计算成本的降低。CART也存在过拟合的问题。
参考链接:
https://blog.csdn.net/z962013489/article/details/80024574
https://zhuanlan.zhihu.com/p/30059442