决策树原理

最新推荐文章于 2024-07-21 08:30:00 发布

ZiHuiJin

最新推荐文章于 2024-07-21 08:30:00 发布

阅读量314

点赞数

文章标签：机器学习决策树大数据算法

本文链接：https://blog.csdn.net/ZiHuiJin/article/details/112323669

版权

决策树基本知识

1.我们遇到的选择都是根据以往的选择判断,如果把判断背后的逻辑整理成一个结构图,会是一个树状图,就是决策树的本质.

2.决策树的阶段:构造与剪枝
构造:选择什么属性作为结点 (1)根节点--树的顶端 (2)内部节点--中间节点 (3)叶节点--决策节点
剪枝:给决策树瘦身;目标就是不需要太多判断就可以得到好的结果.防止过拟合发生(拟合的太好了,不具有普遍性,泛化能力差)

3.过拟合的原因: 训练集中样本量少因为训练集是抽样,并不能体现全部数据的特点

4.剪枝的方法: 预剪枝与后剪枝

5:预剪枝: 在决策树构造的时候就开始剪枝,如果划分某个节点不能对其准确性带来提升,就把当前节点作为叶节点,不对其进行划分

6:后剪枝: 在生成决策树之后进行剪枝.如果保留节点与减掉节点对准确性影响不大就把该节点的叶子节点代替该节点.

7.纯度与信息熵(不纯度).信息熵越大,纯度越低 .判断'不纯度'的种类 (1)信息增益(ID3) (2)信息增益率(c4.5) (3)基尼系数(cart)
信息熵的数学公式：

p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数
eg:我举个简单的例子 5 次去打篮球，1 次不去打篮球；

ID3 与C4.5

10.信息增益:指划分带来的纯度的提高.计算公式是父节点的信息熵 - 子节点的信息熵.
eg:假设天气 = 晴的时候，会有 5 次去打篮球，5 次不打篮球。其中 D1 刮风 = 是，有 2 次打篮球，1 次不打篮球。D2 刮风 = 否，有 3 次打篮球，4 次不打篮球。
那么 a 代表节点的属性，即天气 = 晴。信息增益的公式可以表示为：

11.'ID3算法'就是将信息增益最大的节点作为父节点.但是也存在缺陷.因为ID3 算法倾向于选择取值较多的属性,比如我们把id作为属性,就会被选为最优属性. 但编号是无关属性.在大部分情况下 ID3还是能生成不错的决策树分类的 .

12.在ID3算法上进行改进的'c4.5算法' :
(1)改进方式将信息增益改为信息增益率:信息增益率 = 信息增益/属性熵. 如果碰到无关属性id ,那么虽然信息增益大,但是属性熵也大,所以信息增益率不大
(2)采用悲观剪枝,ID3容易产生过拟合的情况,c4.5之后会在决策树构造后悲观剪枝(PEP),提升模型的泛化能力.
(3)c4.5 可以处理连续属性的情况.对连续属性进行离散化的处理.用具有最高信息增益的划分来确定阈值.
(4)处理缺失值:针对数据不完整的情况,c4.5也能进行处理.

13.ID3算法与c4.5算法的优缺点:
ID3:优点,方法简单.缺点,噪声敏感(对id等无关类容易决策错误)
c4.5:优点,噪声不敏感,可以对构造树进行剪枝,处理连续值以及缺失值情况(善于处理不优质数据) 缺点,需要对数据进行多次扫描,算法效率低

CART

14.CART算法,Classification And Regression Tree(分类回归树)

特点:ID3 and C4.5能生成二叉树图多叉树, CART算法只能生成二叉树.同时,既可以做分类树,也可以做回归树

分类树与回归树:分类树是预测离散数据,输出是有限数(eg.判断职业身份).但是回归树是预测连续性数据,输出一个数值(eg:判断温度).

15.决策树的核心是寻找纯净的划分,因此引入纯度概念. ID3选择信息增益,C4.5选择信息增益率,CART的指标选用基尼系数.

经济学中的基尼系数是衡量一个国家收入差距的常用指标.>0.4表示收入差距过大.0.2~0.4表示收入分配合理.

而在数据中,显示的是差异性.基尼系数越小,表示差异性越小,越大,表示差异性越大.所以CART算法构造分类树的时候选择基尼系数最小的属性.

基尼系数公式:

eg:集合 1：6 个都去打篮球；集合 2：3 个去打篮球，3 个不去打篮球。

针对集合 1，所有人都去打篮球，所以 p(Ck|t)=1，因此 GINI(t)=1-1=0。

针对集合 2，有一半人去打篮球，而另一半不去打篮球，所以，p(C1|t)=0.5，p(C2|t)=0.5，GINI(t)=1-（0.5*0.5+0.5*0.5）=0.5。通过两个基尼系数你可以看出，集合 1 的基尼系数最小，也证明样本最稳定，而集合 2 的样本不稳定性更大。

在 CART 算法中，基于基尼系数对特征属性进行二元分裂，假设属性 A 将节点 D 划分成了 D1 和 D2，如下图所示：

16.CART回归树.判断不纯度的指标不是基尼系数而是'差值的绝对值'或者'方差'

差值绝对值方程式:

方差方程式:

这两种节点划分标准对应两种目标函数最优化标准:最小绝对偏差(LAD)与最小二乘偏差(LSD)

17.CART决策树的剪枝

剪枝方法:CCP(cost-complexity prune)--代价复杂度,是一种后剪枝的方式,指标是节点的'表面误差率增益值'

公式:

其中 Tt 代表以 t 为根节点的子树，C(Tt) 表示节点 t 的子树没被裁剪时子树 Tt 的误差，

C(t) 表示节点 t 的子树被剪枝后节点 t 的误差，|Tt|代子树 Tt 的叶子数，剪枝后，T 的叶子数减少了|Tt|-1。

所以节点的表面误差率增益值等于节点 t 的子树被剪枝后的误差变化除以剪掉的叶子数量。

应用

决策树是常用的数据挖掘算法,因为他更接近于人脑的判断模型,基于决策树还诞生了许多数据挖掘算法比如随机森林(random forest). 
决策树的应用十分广泛,涉及各行各业,比如金融可以做贷款风险评估,医疗行业可以用决策树进行辅助判断,电商行业可以用决策树进行预测等.

总结:

ID3：以信息增益作为判断标准，计算每个特征的信息增益，选取信息增益最大的特征，但是容易选取到取值较多的特征
C4.5：以信息增益比作为判断标准，计算每个特征的信息增益比，选取信息增益比最大的特征
CART：分类树以基尼系数为标准，选取基尼系数小的的特征
回归树以均方误差或绝对值误差为标准，选取均方误差或绝对值误差最小的特征