决策树与随机森林
1、树形模型和线性模型
树形模型:一个一个特征值进行处理。
线性模型:所有特征值基于权重相加得到的一个新值。
2、决策树和逻辑回归
决策树:对每一个特征值做一个划分,非线性分割。
逻辑回归:将所有特征值变换为概率后,通过大于某个概率阙值的划分为一类,小于某一个阙值的为另一类,线性分割。
3、树形模型优点
更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有可解释性。树模型拟合出来的函数其实是分区间的阶梯函数。
4、重要的基本概念
根节点:最重要的特征
父节点与子节点:这两个是一对,先有父节点后又子节点。
叶节点:最终标签
一、决策树
决策树学习:采用自顶向下的递归方法,基本思想是以信息熵为度量构造一个熵值下降最快的树,到叶子节点处熵值为0.
(一)、决策树生成的数学思想
决策树思想:实际上就是寻找最纯净的划分方法(也称纯度),纯度可以理解为目标变量要分得足够开(y=1和y=0的混到一起就会不纯)。另一种理解分类误差率的衡量。实际决策树算法往往用到的是不纯度。不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法。
算法 | 不纯度 |
---|---|
ID3 | 信息增益 |
C4.5 | 信息增益率 |
CART | 基尼系数 |
(二)、决策树:建树和剪枝
1、建树
(1)如何按次序选择属性
也就是首先树根上以及树节点是哪个变量呢?这些变量是从最重要到次重要依次排序的,那怎么衡量这些变量的重要性呢? ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。决策树方法是会把每个特征都试一遍,然后选取那个,能够使分类分的最好的特征,也就是说将A属性作为父节点,产生的纯度增益(GainA)要大于B属性作为父节点,则A作为优先选取的属性。
(2)如何分列训练集(对每个属性选择最优的分割点)
分裂的准则:通过不纯度来分裂数据,通过比较划分前后的不纯度的值,来确定如何分裂。
方法1:CART算法:既可以做分类,也可以做回归。只能形成二叉树。
- 分支条件:二分类
- 分支方法<