1、决策树
1)ID基于信息增益为准则来选择最优划分属性
缺点:ID3决策树会倾向于那些取值较多的属性来分割树,所以会有一定的偏好。
2)C4.5:以信息增益率为准则来选择最优的划分属性
C4.5决策树倾向于首先从所有的候选划分属性中找出信息增益高于平均水平的属性,再从中选择使增益率最高的属性来分割树。
3、CART(Classification and Regression tree)分类回归树
:以基尼系数为准则选择最优分割属性,可同时使用分类和回归
2、随机森林:
1)随机森林是一个典型的多个决策树的组合分类器。
3、GBDT(Gradient Boosting Decision Tree,梯度提升树)和xgboost(extremeGradientBoosting)
1)GBDT是以决策树(CART)为基学习器的GB算法,是迭代树,而不是分类树。
2)Xgboost相比于GBDT来说,更加有效应用了数值优化,最重要是对损失函数(预测值和真实值的误差)变得更复杂。目标函数依然是所有树的预测值相加等于预测值。损失函数引入了一阶导数,二阶导数。
除此之外,xgboost工具支持并行
参考: <https://www.zhihu.com/question/41354392>