【机器学习-6】ID3决策树

华东算法王

于 2025-02-11 11:37:51 发布

阅读量1k

点赞数 8

分类专栏：黄金专栏-小孩ML 文章标签：机器学习决策树人工智能

本文链接：https://blog.csdn.net/m0_69378371/article/details/145568032

版权

黄金专栏-小孩ML 专栏收录该内容

42 篇文章

订阅专栏

ID3决策树（Iterative Dichotomiser 3）

ID3（Iterative Dichotomiser 3）是一种常用的决策树算法，它用于分类问题。ID3算法由Ross Quinlan于1986年提出，是决策树学习的一种方法。ID3的核心思想是通过信息增益（Information Gain）来选择最佳特征，并根据这些特征将数据集递归地划分成更小的子集，直到所有的子集都能达到纯度要求或满足停止条件。

1. ID3算法的基本思想

ID3算法通过一系列步骤，选择最佳特征进行数据分割，递归地构建决策树。具体的分割标准是信息增益，它衡量了分割数据集后的不确定性减少的程度。信息增益越大，表示该特征对于分类的作用越大，选择这个特征作为当前节点的划分依据。

2. 信息增益（Information Gain）

信息增益基于信息论中的**熵（Entropy）**概念。熵衡量的是数据的不确定性或者混乱度，熵越高，数据的混乱度越大；熵越低，数据越纯净。

熵的计算公式：

对于某个数据集 S，假设它包含了 k 个不同的类别，熵的计算公式为：

$\sum_{i=1}^{k} p_i \log_2(p_i)$

其中，p_i 是数据集中第 i 类的概率。

信息增益的计算公式：

信息增益衡量的是选择某个特征后，数据集的熵减少了多少。具体的计算公式为：

$Information\_Gain(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} \cdot Entropy(D_v)$

其中：

D 是数据集。
A 是某个特征，Values(A) 是该特征所有可能的取值。
D_v 是在特征 A 取值为 v 的情况下，数据集 D 中的子集。
|D| 和 |D_v| 分别是数据集 D 和子集 D_v 的大小。

3. ID3算法的步骤

ID3算法构建决策树的步骤如下：

计算当前数据集的熵：对整个数据集计算熵值，衡量数据集的混乱度。
计算每个特征的信息增益：对每个特征，计算其信息增益。信息增益越大，表示该特征能有效减少不确定性，应该被选择作为当前节点的划分依据。
选择最佳特征：选择信息增益最大的特征作为当前节点的特征，进行分裂。
递归分裂：根据选择的特征对数据进行划分，创建子节点，并递归地应用步骤1到步骤3，直到满足停止条件（如数据完全纯净或达到最大树深度）。
形成叶节点：当数据集中的样本属于同一类别时，将该节点标记为叶节点，并给出类别标签。

4. ID3的优缺点

4.1 优点

易于理解和实现：ID3决策树简单直观，非常容易理解和实现。
不需要特征缩放：决策树不受特征尺度的影响，因此不需要对数据进行归一化或标准化。
处理非线性关系：决策树能够捕捉到特征之间的非线性关系。

4.2 缺点

容易过拟合：ID3算法容易在训练数据上过拟合，特别是在数据集较小或特征较多的情况下。
偏向选择取值较多的特征：ID3在选择特征时，偏向于选择具有更多取值的特征，因为它能够产生更多的分支，这可能导致选择过于复杂的特征。
无法处理连续数据：ID3算法不能直接处理连续型数据，需要先将连续特征离散化，这可能引入额外的复杂度。
不支持回归问题：ID3算法专门用于分类任务，不适用于回归问题。

5. 剪枝问题

ID3算法容易在训练数据上过拟合。为了克服这一问题，可以对决策树进行剪枝。剪枝可以分为预剪枝（Pre-pruning）和后剪枝（Post-pruning）：

预剪枝：在树的构建过程中，提前停止分裂，避免树的深度过大。
后剪枝：在树构建完成后，通过删除一些不必要的分支来减少模型的复杂度，改善泛化能力。

6. Python实现ID3决策树

在Python中，scikit-learn库提供了决策树的实现，虽然DecisionTreeClassifier默认采用的是CART算法（使用基尼指数），但它的实现原理和ID3类似。这里给出一个基于scikit-learn的例子：

import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树分类器，采用ID3的方式（使用信息增益）
clf = DecisionTreeClassifier(criterion='entropy', random_state=42)

# 训练决策树
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 输出准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy}")

# 可视化决策树
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(12,8))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()