机器学习笔记--决策树

最新推荐文章于 2025-04-02 08:39:04 发布

算法导航

最新推荐文章于 2025-04-02 08:39:04 发布

阅读量92

点赞数

分类专栏：吴恩达机器学习笔记文章标签：机器学习笔记决策树

本文链接：https://blog.csdn.net/qq_44175983/article/details/132257179

版权

吴恩达机器学习笔记专栏收录该内容

10 篇文章

订阅专栏

1、决策树原理

（1）分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FjWu9boa-1691893391155)(https://note.youdao.com/yws/res/3101/73C2265C3D5F4D1AA8E82F513D527A62)]

（2）决策树学习旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。因为从可能的决策树中直接选取最优决策树是NP完全问题。现实中采用启发式方法学习次优的决策树。

决策树学习算法包括3部分：特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5和CART。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DHYlP4YB-1691893391156)(https://note.youdao.com/yws/res/3105/4A00D4366CC645688EF0AE30C0ECF823)]

（3）特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。常用的准则如下：

1）样本集合 $D$ 对特征 $A$ 的信息增益（ID3）

$g (D, A) = H (D) - H (D ∣ A)$
$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$
$A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)$

其中， $H (D)$ 是数据集 $D$ 的熵， $H(D_i)$ 是数据集 $D_i$ 的熵， $H (D ∣ A)$ 是数据集 $D$ 对特征 $A$ 的条件熵。 $D_i$ 是 $D$ 中特征 $A$ 取第 $i$ 个值的样本子集， $C_k$ 是 $D$ 中属于第 $k$ 类的样本子集。 $n$ 是特征 $A$ 取值的个数， $K$ 是类的个数。

2）样本集合 $D$ 对特征 $A$ 的信息增益比（C4.5）

$g_{R}(D, A)=\frac{g(D, A)}{H(D)}$

其中， $g (D, A)$ 是信息增益， $H (D)$ 是数据集 $D$ 的熵。

3）样本集合 $D$ 的基尼指数（CART）

$\operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}$

特征 $A$ 条件下集合 $D$ 的基尼指数：

$\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)$

（4）决策树的生成。通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。决策树的生成往往通过计算信息增益或其他指标，从根结点开始，递归地产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征，或将训练集分割为能够基本正确分类的子集。

（5）决策树的剪枝。由于生成的决策树存在过拟合问题，需要对它进行剪枝，以简化学到的决策树。决策树的剪枝，往往从已生成的树上剪掉一些叶结点或叶结点以上的子树，并将其父结点或根结点作为新的叶结点，从而简化生成的决策树。

2、实例：决策树分类和回归

# @Time : 2021/12/10 11:15
# @Author : xiao cong
# @Function : 鸢尾花数据集实现决策树分类

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=['sepal length', 'sepal width', 'petal length', 'petal width'])
    df["label"] = iris.target
    data = np.array(df.iloc[:100, [0, 1, -1]])
    return data[:, :2], data[:, -1]


X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# *****************************************************************************************************
"""
决策树分类
"""

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
from sklearn import tree

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))
tree.plot_tree(clf)                      # 导出树
plt.show()


# **********************************************************************************************
"""
决策树回归
"""
from sklearn.tree import DecisionTreeRegressor

rng = np.random.RandomState(1)             # 随机数种子
X = np.sort(5 * rng.rand(80, 1), axis=0)           # 维度(80,1)
y = np.sin(X).flatten()
y[::5] += 3 * (0.5 - rng.rand(16))                # 每间隔5 ,加上随机噪声

reg1 = DecisionTreeRegressor(max_depth=2)
reg2 = DecisionTreeRegressor(max_depth=5)           # 指 树的最大深度
reg1.fit(X, y)
reg2.fit(X, y)

# 预测
X_test = np.arange(0, 5, 0.01).reshape(-1, 1)              # 0~5之间每隔0.01生成一个数据。增加一个维度
y1 = reg1.predict(X_test)
y2 = reg2.predict(X_test)

plt.figure()
plt.scatter(X, y, s=20, edgecolors='black', c="darkorange", label="data")
plt.plot(X_test, y1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(X_test, y2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()