决策树（DT）

最新推荐文章于 2023-02-15 18:21:58 发布

Apassionata

最新推荐文章于 2023-02-15 18:21:58 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/Apassionata/article/details/52243623

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树(Decision Tree)

决策树可用于分类也可用于回归。决策树是一个类似树结构的表示法，每个内部节点表示一个属性的测试，分支表示一个测试的输出，而叶节点就表示类或类的分布。使用训练样本构建决策树时，通常采用自顶向下的递归方式。
对于利用决策树来分类，我觉得“探测”来解释这一过程很合适。对目标样本，不是所有属性一次性就可以决定分类，而是要一步步的。先从一个特征属性的开始判断，如果能直接分类就ok了，如果不行再选一个特征属性再重复上面的判断。如果前几个特征属性可以直接决定类别，别的特征属性的值就会用不上。那么这时就得思考先从哪个特征属性开始？然后是哪个？再后来是哪个？
常用的决策树算法有ID3、C4.5、CART、SLIQ、SPRINT等。
要了解这些算法，先得了解一些基本概念：

信息熵：
信息熵可以衡量事物的不确定性，这个事物不确定性越大，信息熵也越大。
假如事件A的分类划分为 $(A_{1},A_{2},...,A_{n})$ ,每部分发生的概率是 $(p_{1},p_{2},...,p_{n})$ ,那么信息熵可这么定义：

Ent(p1,p2,...,pn)=−p1log2p1−p2log2p2−...−pnlog2pn

那么对于分类来说，数据集类别越多，越不纯，越混乱，则熵越大。反之，熵越小。
1. 信息增益
  信息增益：在一个条件下，信息不确定性减小的程度。为总的熵减去某个分类标准对应的熵。在决策树分类问题中，就是决策树在进行属性选择划分前和划分后的信息差值。
  设D是样本集合，属性a有v个可能的值 ${a^{1},a^{2},...,a^{V}}$ , $D^{v}$ 为D中所在属性上取值为 $a^{v}$ 的样本。则用属性 $a$ 对样本集D进行划分所得的信息增益为
  
  $G a i n (A ， a) = E n t (D) - \sum v = 1 V ∣ D v ∣ ∣ D ∣ E n t (D v)$ ${\rm Gain}(A，a)={\rm Ent}(D)-\sum_{v=1}^{V}\frac{\mid D^{v}\mid}{\mid D \mid}{\rm Ent}(D^{v})$
  信息增益越大，意味着使用属性 $a$ 来进行划分所获得的纯度提升越大。所以决策树在属性选择时，就会选择信息增益大的。信息增益准则对可取值数目较多的属性有所偏好。
2. 增益率
  
  $G r a i n r a t i o (D, a) = G a i n ( D , a ) I V ( a )$ ${\rm Grain_ratio(D,a)}=\frac{{\rm Gain}(D,a)}{IV(a)}$
  $I V (a) = - \sum v = 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣$ $IV(a)=-\sum_{v=1}^{V}\frac{\mid D^{v} \mid}{\mid D \mid}{\rm log}_{2}\frac{\mid D^{v}\mid}{\mid D \mid}$ 增益率准则对可取值数目较少的属性有所偏好。
3. 基尼指数
  数据集D的纯度可用基尼值来度量：
  $G i n i (D) = \sum k = 1 ∣ Y ∣ \sum k 1 \neq k p k p k 1 = 1 - \sum k = 1 ∣ Y ∣ p 2 k$ ${\rm Gini}(D)=\sum_{k=1}^{\mid Y\mid}\sum_{k1\neq k}p_{k}p_{k_{1}}=1-\sum_{k=1}^{\mid Y \mid}p_{k}^{2}$ 基尼值 ${\rm Gini}D$ 反映了从数据集 $D$ 中随机出去两个样本，其类别标记不一致的概率。 ${\rm Gini}D$ 越小， $D$ 的纯度越高。
  属性 $a$ 的基尼指数为
  $G i n i i n d e x (D, a) = \sum v = 1 V ∣ D v ∣ ∣ D ∣ G i n i (D v)$ $Gini_index(D,a)=\sum_{v=1}^{V}\frac{\mid D^{v}\mid}{\mid D\mid}{\rm Gini}(D^{v})$ 决策树在选择时，选择基尼指数最小的属性作为最优划分属性。
上面我们提到，在构建决策树时，采用的是递归方式。在决策树的基本算法中，递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果数据集已经处理了所有属性，但是类别标签不是唯一的，此时我们需要决定如何定义该叶子结点，在这种情况下，我们通常会采用多数表决的方法决定该叶子结点的分类。

ID3算法

ID3算法是一种贪心算法，用来构造决策树。以信息熵和信息增益为衡量标准。在划分数据集时，每次划分选取信息增益最高的属性进行划分，重复这个过程，直到生成一个能完美分类训练样例的决策树。

步骤：输入：样本集合S,属性集合A；输出：ID3决策树

(1) 遇到递归终止的条件，返回类别；否则执行（2）

(2) 计算出信息增益最大的属性a,把a作为作为根节点。生成属性集合A1=A-a,执行（3）

（3）对属性a的的每个可能的取值，执行：
1. 将所有属性a的值是v的样本作为S的一个子集Sv;
2. 以样本集合Sv和属性集合A1为输入，递归执行ID3算法。
优点：实现比较简单，产生的规则如果用图表示出来的话，清晰易懂，分类效果好。
缺点：只能处理标称型数据，容易形成过拟合，在选择最佳划分属性时容易选择那些属性值多的一些属性。

C4.5

C4.5算法继承了ID3算法的优点，并在以下几个方面对ID3算法进行了改进：

用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
在树构造过程中进行了剪枝，避免了过拟合；
能够完成对连续属性的离散化处理；
能够对不完整数据进行处理。

优点：产生的分类规则易于理解，准确率较高。

缺点：在树的构造过程中，需要对数据集进行多次的顺序扫描和排序，耗时。

增益率准则对可取值数目较少的属性有所偏好。因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选择增益率最高的。

CART

CART决策树使用“基尼指数”来选择划分属性。数据集D的纯度还可用基尼值来度量：

G i n i (D) = \sum k = 1 n \sum k 1 \neq k p k p k 1 = 1 - \sum k = 1 n p 2 k .

${\rm Gini(D)}=\sum_{k=1}^{n}\sum_{k_{1}\neq k}p_{k}p_{k_{1}}=1-\sum_{k=1}^{n}p_{k}^{2}.$

${\rm Gini(D)}$ 值越小，代表D的纯度越高。

属性a的基尼指数为

G i n i i n d e x (D, a) = \sum v = 1 V ∣ D v ∣ ∣ D ∣ G i n i (D v)

${\rm Gini_index(D,a)}=\sum_{v=1}^{V}\frac{\mid D^{v}\mid}{\mid D \mid}{\rm Gini}(D^{v})$

基尼指数最小的为最优划分属性。

剪枝是对付过拟合的主要手段。分为预剪枝和后剪枝。主要当前结点的划分能不能使决策树的性能提升来判断要不要剪枝。

决策树与推荐系统：

在基于内容的推荐算法中，当item的属性是结构化数据时，可对user的训练集构造决策树。

Apassionata

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树（DT）

决策树(Decision Tree)决策树可用于分类也可用于回归。决策树是一个类似树结构的表示法，每个内部节点表示一个属性的测试，分支表示一个测试的输出，而叶节点就表示类或类的分布。使用训练样本构建决策树时，通常采用自顶向下的递归方式。
复制链接

扫一扫