关于决策树的那些事

最新推荐文章于 2023-10-25 17:11:43 发布

AI深入浅出

最新推荐文章于 2023-10-25 17:11:43 发布

阅读量1k

点赞数

决策树（DT）是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的价值。

例如，在下面的例子中，决策树从数据中学习使用一组if-then-else决策规则来逼近正弦曲线。树越深，决策规则越复杂，模型也越复杂。

用决策树进行1D回归。

该决策树来拟合与另外嘈杂观察正弦曲线。结果，它学习了近似正弦曲线的局部线性回归。我们可以看到，如果树的最大深度（由max_depth参数控制）设置得太高，那么决策树会学习过细的训练数据细节，并从噪声中学习，即它们会过度训练。 640?wx_fmt=png

print(__doc__)
# Import the necessary modules and libraries
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
# Create a random dataset
rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel()
y[::5] += 3 * (0.5 - rng.rand(16))
# Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)
# Predict
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)
# Plot the results
plt.figure()
plt.scatter(X, y, s=20, edgecolor="black",
c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",
label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

决策树的一些优点是：

很容易理解和解释。树可以被可视化。
只需很少的数据准备。其他技术通常需要数据标准化，需要创建虚拟变量并删除空白值。但请注意，此模块不支持缺少的值。
使用树的成本（即预测数据）是用于训练树的数据点的数量的对数。
能够处理数字和分类数据。其他技术通常专门用于分析只有一种类型变量的数据集。
能够处理多输出问题。
使用白盒模型。如果给定的情况在模型中是可观察的，则条件的解释很容易通过布尔逻辑来解释。相比之下，在黑盒模型（例如，在人工神经网络中），结果可能更难以解释。
可以使用统计测试来验证模型。这可以说明模型的可靠性。
即使其假设受到数据生成的真实模型的某种程度的侵犯，也能很好地执行。

决策树的缺点包括：

决策树学习者可以创建过于复杂的树，不能很好地概括数据。这被称为过度拟合。诸如修剪（目前不支持）等机制，设置叶节点所需的最小样本数或设置树的最大深度是避免此问题所必需的。
决策树可能不稳定，因为数据中的小变化可能会导致生成完全不同的树。通过在集合中使用决策树可以缓解这个问题。
学习最优决策树的问题在最优化的几个方面甚至简单的概念下已知是NP完全的。因此，实际决策树学习算法基于启发式算法，例如在每个节点进行局部最优决策的贪心算法。这样的算法不能保证返回全局最优决策树。这可以通过在集合学习器中训练多棵树来缓解，其中特征和样本随机地用替换采样。
有些概念很难学，因为决策树不能很容易地表达它们，例如XOR，奇偶校验或多路复用器问题。
如果某些类占主导地位，决策树学习者会创建偏向性树。因此，建议在拟合决策树之前平衡数据集。

例子：绘制虹膜数据集上决策树的决策表面

640?wx_fmt=png

print(__doc__)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
# Parameters
n_classes = 3
plot_colors = "ryb"
plot_step = 0.02
# Load data
iris = load_iris()
for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],
[1, 2], [1, 3], [2, 3]]):
# We only take the two corresponding features
X = iris.data[:, pair]
y = iris.target
# Train
clf = DecisionTreeClassifier().fit(X, y)
# Plot the decision boundary
plt.subplot(2, 3, pairidx + 1)
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
np.arange(y_min, y_max, plot_step))
plt.tight_layout(h_pad=0.5, w_pad=0.5, pad=2.5)
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = plt.contourf(xx, yy, Z, cmap=plt.cm.RdYlBu)
plt.xlabel(iris.feature_names[pair[0]])
plt.ylabel(iris.feature_names[pair[1]])
# Plot the training points
for i, color in zip(range(n_classes), plot_colors):
idx = np.where(y == i)
plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
cmap=plt.cm.RdYlBu, edgecolor='black', s=15)
plt.suptitle("Decision surface of a decision tree using paired features")
plt.legend(loc='lower right', borderpad=0, handletextpad=0)
plt.axis("tight")
plt.show()

多输出问题

多输出问题是一个监督学习问题，有几个输出可以预测，也就是说当Y是一个二维数组时。 [n_samples,n_outputs]当输出之间不存在关联时，解决这类问题的一种非常简单的方法是构建n个独立模型，即每个输出一个模型，然后使用这些模型独立预测n个输出中的每一个。但是，因为与同一输入相关的输出值可能本身是相互关联的，所以通常更好的方法是建立能够同时预测所有n个输出的单个模型。首先，由于只建立一个估计器，所以它需要较短的训练时间。其次，结果估计量的泛化精度往往会增加。

关于决策树，这个策略可以很容易地用来支持多输出问题。这需要进行以下更改：