作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:
目录
前言:
决策树不仅仅可以用于分类,还可以用于回归,本文就是通过代码展示决策树的回归效果。
第1步骤:导入需要的库
# 1. 导入需要的库
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
第2步骤:创建一条含有噪声的正弦曲线
# 2. 创建一条含有噪声的正弦曲线
# 在这一步,我们的基本思路是,先创建一组随机的,分布在0~5上的横坐标轴的取值(x),然后将这一组值放到sin函
# 数中去生成纵坐标的值(y),接着再到y上去添加噪声。全程我们会使用numpy库来为我们生成这个正弦曲线。
rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80,1), axis=0)
y = np.sin(X).ravel()
y[::5] += 3 * (0.5 - rng.rand(16))
plt.figure()
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
#np.random.rand(数组结构),生成随机数组的函数
#了解降维函数ravel()的用法
np.random.random((2,1))
np.random.random((2,1)).ravel()
np.random.random((2,1)).ravel().shape
这是一个待噪声的正弦曲线。
第3步骤:实例化&训练决策树模型
# 3. 实例化&训练模型
# 创建两个模型,用于比较不同深度对预测的影响
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
# 训练模型
regr_1.fit(X, y)
regr_2.fit(X, y)
可以看出,scikit-learn在训练模型是非常简单。
第4步骤:用训练好的决策树进行预测
# 4. 测试集导入模型,预测结果
# 生成测试集的x轴数据
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
# 用模型预测y轴数值
y_1 = regr_1.predict(X_test)
# 用模型预测y轴数值
y_2 = regr_2.predict(X_test)
第5步骤:绘制图像
# 5. 绘制图像
plt.figure()
#绘制原始样本数据集
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
#绘制决策树的预测结果
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
# 打印标签
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()
结果分析:
(1)可见,回归树学习了近似正弦曲线的局部线性回归。
(2)我们可以看到,如果树的最大深度(由max_depth参数控制设置得太高,则决策树学习得太精细,它从训练数据中学了很多细节,包括噪声得呈现,从而使模型偏离真实的正弦曲线,形成过拟合。
(3)从决策树的预测结果来看,决策树预测的结果实际是一个阶梯型的图形。
这说明两点:
- 阶梯表明这与分类类似,每个阶梯本质上一种分类类型,是一次决策分支。
- 阶梯表明决策树是用线性曲线去拟合非线性曲线。
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址: