树模型
1、决策树 ID3,C4.5,CART
2、随机森林RF
3、Adaboost
4、GBDT
5、XGboost
6、孤立森林(异常检测)
一、决策树
决策树是一种基本的分类和回归方法,用于分类主要借助每一个叶子节点对应一种属性判定,通过不断的判定导出最终的决策;用于回归则是用均值函数进行多次二分,用子树中数据的均值进行回归。决策树算法中,主要的步骤有:特征选择,建树,剪枝。下面对三种典型的决策树ID3,C4.5,CART进行三个步骤上的对比分析。
优点:
可解释性好,易可视化 ,特征工程中可用特征选择
样本复杂度 O(log(n)) O ( l o g ( n ) ) ,维度灾难
缺点:
易过拟合,学习最优模型N-P难,贪心搜索局部最优
虽然是非线性模型,但不支持异或逻辑
数据不均衡时不适合决策树
决策属性不可逆
一、特征选择
对于决策树而言,每一个非叶子节点都是在进行一次属性的分裂,选择最佳的属性,把不同属性值的样本划分到不同的子树中,不断循环直到叶子节点。其中,如何选择最佳的属性是建树的关键,决策树的一个特征选择的指导思想是熵减思想。常见的选择方式有ID3的信息增益,C4.5的信息增益率,CART的基尼指数,最小均方差。
这里分别介绍这ID3,C4.5,CART决策树的特征选择标准
1) 信息增益
为了清楚的理解信息增益,先了解信息论中信息熵,以及条件熵的概念。熵是一种对随机变量不确定性的度量,不确定性越大,熵越大。
假设离散随机变量 Y Y 的概率分布为
,则其熵为:
其中熵满足不等式 0≤H(Y)≤log|Y| 0 ≤ H ( Y ) ≤ l o g | Y | 。
在进行特征选择时尽可能的选择在属性 X X 确定的条件下,使得分裂后的子集的不确定性越小越好(各个子集的信息熵和最小),即
的条件熵最小。