决策树

最新推荐文章于 2024-08-04 21:08:26 发布

Txixi

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量914

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Txixi/article/details/115114316

版权

文章目录

前言
决策树的构建
- 特征选取
- 决策树的特点
决策树的剪枝

前言

决策树就是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域

决策树适应场景：决策树能够生成清晰的基于特征（feature）选择不同预测结果的树状结构，希望更好的理解手上的数据的时候往往可以使用决策树，在实际应用中，受限于它的简单性，决策树更大的用处是作为一些更有用的算法的基石，例如随机森林。

决策树的构建

特征选择
决策树的生成
决策树的修剪

特征选取

1、使用哪个特征来划分特征空间
2、节点的纯度（purity）

（1）熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大
H(X)=- $\sum_{i=1}^n$ p $_i$ logp $_i$ （p $_i$ 是事物的概率）
熵越高，不纯度越大，表示不确定性越大

ID3过程：

从根结点（root node）开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征。
由该特征的不同取值建立子节点，再对子节点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；
最后得到一个决策树

信息增益：

表示不确定性减少的程度
父节点的不纯度减去所有子节点的不纯度
假设离散属性a有V个可能的取值a $^1$ ,a $^2$ ,……,a $^V$ 使用属性a对样本集D进行划分，则会产生V个分支节点，其中第V个分支节点包含D中所有在属性a熵取值为a $^v$ 的样本，记为D $^v$
Gain(D,a)=Ent(D)- $\sum_{v=1}^V$ ${|D^v| \over |D|}$ Ent(D $^v$ )

ID3算法的不足：

ID3不适合于连续特征，如长度，密度都是连续值，无法在ID3运用
采用信息增益大的特征优先建立决策树的节点，相同条件下，取值比较多的特征比取值少的特征信息增益大
对于缺失值的情况没有做考虑
没有考虑过拟合的问题
ID3算法做了改进，这就是C4.5算法

（2）C4.5算法

将连续的特征离散化
信息增益比作为选择特征的标准
在信息增益的基础上乘上一个惩罚参数。特征个数较多时，惩罚参数较大；特征个数较少时，惩罚参数较小
S = - $\sum_{i=1}^k$ ${|D_i| \over |D|}$ log $_2$ ${|D_i| \over |D|}$
Gainratio(D,A) = $\over S}$

（3）CART回归树
基尼系数：
基尼系数与信息熵计算出来的结果差距很小，基本可以忽略，但是基尼系数要计算快得多，因为没有对数
Gini( P ) = $\sum_{k=1}^K$ p $_k$ (1-p $_k$ ) = 1- $\sum_{k=1}^K$ p $_k$ $^2$
Gini( D ) = 1- $\sum_{i=1}^N$ ( ${|D_i| \over |D|}$ ) $^2$