决策树算法

最新推荐文章于 2024-06-18 17:52:55 发布

April123abc

最新推荐文章于 2024-06-18 17:52:55 发布

阅读量928

点赞数 19

文章标签：算法决策树机器学习

本文链接：https://blog.csdn.net/April123abc/article/details/134839611

版权

本文详细介绍了决策树的概念，包括其工作原理、特征选择中的信息熵和信息增益计算，以及ID3、C4.5和CART三种常见算法的比较。还讨论了如何通过不纯度度量如信息熵、基尼系数进行划分，并展示了决策树在分类和回归任务中的应用实例。

摘要由CSDN通过智能技术生成

决策树概念

决策树是⼀种树形结构，通过特征的不同来将样本数据划分到不同的分⽀（⼦树）中，最终，每个样本⼀定会划分到⼀个叶⼦节点中。我们可以将每个特征视为⼀个问题（提问), 特征值的不同，就视为样本给出的不同答案，然后，我们就可以根据⼀系列问题（特征）, 将样本划分到不同的叶⼦节点中。决策树可以⽤于分类与回归任务。

决策树的介绍：决策树学习采⽤的是⾃顶向下的递归⽅法，其基本思想是以信息熵为度量构造⼀棵熵值，下降最快的树，到叶⼦节点处的熵值为零，此时每个叶节点中的实例都属于同⼀类。

训练决策树

序号	拥有房产（X1）	婚姻状态（X2）	年收入（X3）	能否偿还债务（Y）
1	是	单身	125	能
2	否	已婚	100	能
3	否	单身	100	能
4	是	已婚	110	能
5	是	离婚	60	能
6	否	离婚	95	不能
7	否	单身	85	不能
8	否	已婚	75	能
9	否	单身	90	不能
10	是	离婚	220	能
11	否	已婚	94	？

决策树特征选择

信息熵

决策树的信息熵是⽤来度量样本集合纯度的指标。信息熵越⼤，表示样本集合的不确定性越⼤；信息熵越⼩，表示样本集合的确定性越⾼。在决策树的构建过程中，信息熵被⽤来作为划分属性的依据，通过计算不同属性划分后的信息熵来选择最优划分属性，以使得整个决策树的熵值最⼩，从⽽使得整个决策系统的确定性最⾼。

计算⽅式

假设随机变量具有个值，分别为:V1，V2 ，V3... ，Vm。并且各个值出现的概率如下：

则变量的信息期望值（信息熵）为：

不纯度

决策树的不纯度是指落在当前节点的样本类别分布的均衡程度。如果类别⼀致，那么不纯度为0，叶⼦节点和是相对纯的。在决策树的每个叶⼦节点中都会包含⼀组数据，这组数据中，如果某⼀类标签占有较⼤的⽐例，我们就说叶⼦节点“纯”，分枝分得好。某⼀类标签占的⽐例越⼤，叶⼦就越纯，不纯度就越低，分枝就越好。如果没有哪⼀类标签的⽐例很⼤，各类标签都相对平均，则说叶⼦节点”不纯“，分枝不好，不纯度⾼.

不纯度是决策树算法中⼀个重要的概念，它可以帮助我们判断在每个节点处进⾏分裂是否合适。⼀般来说，不纯度越低，说明数据在该节点处越能被分裂得均匀，该节点的分裂效果越好。因此，决策树算法会选择不纯度下降最⼤的地⽅进⾏分裂。

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False
plt.rcParams["font.size"] = 12
p = np.linspace(0.01, 0.99, 100)
# 计算在不同⽐例下的信息熵。--- 信息熵公式
h = -p * np.log2(p) - (1 - p) * np.log2(1 - p)
plt.plot(p, h)
plt.xlabel("p取值")
plt.ylabel("信息熵")
plt.title("信息熵（不纯度）")
plt.show()

运行结果

信息增益

f：划分的特征。
Dp：⽗节点，即使⽤特征f分割之前的节点。
IG(Dp,f)：⽗节点Dp使⽤特征f划分下，获得的信息增益。
Dj：⽗节点Dp经过分割之后，会产⽣n个⼦节点， Dj为第j个⼦节点。
Np：⽗节点 Dp包含样本的数量。
Nj：第 j个⼦节点Dj包含样本的数量。
I：不纯度度量标准。例如，之前介绍的信息熵，就是标准之⼀。 ---- 后⾯公式就是⽤信息熵H

出于简化与缩⼩组合搜索空间的考虑，很多库（包括scikit-learn）实现的都是⼆叉决策树，即每个⽗节点最多含有两个⼦节点（左⼦树节点与右⼦树节点），此时，信息增益定义为:

通过定义我们可知，信息增益就是⽗节点的不纯度减去所有⼦节点不纯度（加权）。

不纯度度量标准

不纯度可以采⽤如下⽅式度量：

信息熵（Entropy）
基尼系数（Gini Index）
错误率（classification error）

信息熵

m：节点D中含有样本的类别数量。
P(i|D): 节点D中，属于类别i 的样本占节点 D中样本总数的⽐例（概率）。

基尼系数

错误率

def gini(p):
 return 1 - np.sum(p ** 2, axis=1)
def entropy(p):
 return -np.sum(p * np.log2(p), axis=1)
def error(p):
 return 1 - np.max(p, axis=1)
# 定义概率的取值范围。
p = np.linspace(0.01, 0.99, 200)
# 计算概率组合。
parray = np.array([p, 1 - p]).T
print(parray)
# 计算信息熵。
en = entropy(parray)
# 计算缩放的信息熵。
en2 = en * 0.5
# 计算错误率。
err = error(parray)
# 计算基尼系数。
g = gini(parray)
fig = plt.figure()
for i, lab, ls, c, in zip([en, en2, g, err], ["信息熵", "信息熵（缩放）", "基尼系数", "错误率"],["-", ":", "--", "-."], ["r", "g", "b", "y"]):
 plt.plot(p, i, label=lab, linestyle=ls, lw=2, color=c)
 
plt.legend(loc="right", bbox_to_anchor=(1.55, 0.8))
plt.axhline(y=0.5, linewidth=1, color='k', linestyle="--")
plt.axhline(y=1.0, linewidth=1, color='k', linestyle="--")
plt.ylim([0, 1.1])
plt.xlabel("概率1取值")
plt.ylabel("纯度系数")
 
plt.show()

运行结果

[0.94075377 0.05924623]
[0.94567839 0.05432161]
[0.95060302 0.04939698]
[0.95552764 0.04447236]
[0.96045226 0.03954774]
[0.96537688 0.03462312]
[0.97030151 0.02969849]
[0.97522613 0.02477387]
[0.98015075 0.01984925]
[0.98507538 0.01492462]
[0.99 0.01 ]]