之前的决策树只简单介绍了决策树思想,决策树还有多种类型,做一个白话的小总结,待补充完善。
ID3算法使用信息增益选择属性,C4.5用信息增益率,克服信息增益容易选择取之类别偏多的特征的不足!!
ID3,C4.5都只用于分类问题;
CART(Classification And Regression Tree)即可用于分类,也可用于回归,sklearn中使用的是CART算法,可以做分类(DecisionTreeClassifier),也可以做回归(DesicionTreeRegression).
CART是二叉树.
作为分类树时,特征可以连续(需要转化为离散数据)/离散,但标签数据为离散,节点分裂时使用Gini系数(Gini系数同熵值原理相似,越大表示数据不确定性越大,越小表示不确定性越小,样本属于同一类的概率越大).
作为回归树时,特征通常也是连续属性,标签数据为连续.
GBDT(Gradient Boosting Decision Tree),多棵决策树累加值作为最终结果。GBDT中的树都是回归树,不是分类树。是Boosting算法,但注意和AdaBoost区分。
GDBT一般适用于回归问题(线性/非线性).也可以用于二分类,但输出结果不是直接的类别,可以设定阈值,大于阈值为1类,小于阈值为0类。
XGBoost是对GBDT进行了完善,思想类似,中间的计算过程进行了改进,使得计算效率更高,模型性能更好!