一、什么是CART决策树
决策树概念:机器学习之决策树–原理分析
CART(Classification And Regression Tree),即分类与回归树。
由它的名字可以发现,它分为分类树和回归树两种。
分类树就是决策树传统做的事情,ID3和C4.5就是做这个事情。那CART分类树和它们的区别是什么呢?ID3和C4.5是多分支的,而CART规定每个内部节点只能是二分的。其他过程和C4.5类似,同样可以做数值型属性的划分。
回归树的目标类别不是离散型的分类,而是连续型的数值。CART在做回归时,根据叶子节点的类型是具体数值还是其他的机器学习模型又可以分为回归树和模型树。回归时,通过一系列的属性划分,将样本划分为多个群落,群落之间有鲜明的区别,既是一系列属性间的区别。如果是回归树,则每个群落的均值或其他的代表性指标作为该群落的回归值。如果是模型树,则每个群落内部通过其他的机器学习模型进行拟合,最后根据属性选择,做出最后的预测。因为经过属性划分之后,形成了多个群落,其实这些群落也就是类别,所以回归树和模型树既算回归,也称得上分类。
可以总结CART和C4.5的区别:
- CART的所有内部节点都是二分的
- CART选择GINI指数作为特征选择标准
二、什么是GINI指数?