决策树常用算法——ID3、C4.5、CART比较分析
基本认识
名称 | 英文全称 | 中文 | 特征 |
---|---|---|---|
ID3 | Iterative Dichotomiser 3 | 迭代二分器3 | 最大信息增益 |
C4.5 | (未找到英文) | / | 最大信息增益比 |
CART | Classification And Regression Tree | 分类和回归树 | 最小基尼指数 |
- ID3:信息增益反应了给定条件后,不确定性减少的程度,倾向于选择取值较多的特征,只能处理离散变量,只能用于分类,对缺失值敏感。
- C4.5:是ID3算法的扩展,与ID3一样,可以产生多叉分支,每个特征层级间不复用。
- CART:基尼指数(Gini impurity)计算速度更快,作为sklearn的默认算法,只能产生二叉树,不仅可以用于分类,也可用于回归。
CART实现回归
参见
《hands on machine learning with scikit learn and tensorflow》P175