决策树做回归及其与Ridge回归的对比

最新推荐文章于 2024-04-29 11:23:04 发布

chnhbhndchngn

最新推荐文章于 2024-04-29 11:23:04 发布

阅读量540

点赞数

分类专栏： python笔记数据挖掘文章标签： DecisionTreeRegressor RidgeCV BaggingRegressor

本文链接：https://blog.csdn.net/a857553315/article/details/97612758

版权

python笔记同时被 2 个专栏收录

101 篇文章 7 订阅

订阅专栏

数据挖掘

31 篇文章 1 订阅

订阅专栏

决策树是既可以做分类又可以做回归的模型，这篇文章我们来测试一下它的回归的效果如何。

首先，我们来生成一些数据：

import numpy as np
import matplotlib as mpl
from sklearn.linear_model import RidgeCV
from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False

def f(x):
    return 0.5 * np.exp(-(x+3) **2) + np.exp(-x**2) + 0.5 * np.exp(-(x-3) ** 2)

np.random.seed(0)
N = 200
x = np.random.rand(N) * 10 - 5  # [-5,5)
x = np.sort(x)
y = f(x) + 0.05 * np.random.randn(N)
x.shape = -1, 1
x_test = np.linspace(x.min() - 0.5, x.max() + 0.5, 1000)
plt.figure(figsize=(12, 8), facecolor='w')
plt.plot(x, y, 'ro', label='训练数据')
plt.plot(x_test, f(x_test), color='k', lw=3.5, label='真实值')
plt.grid(True)
plt.show()

画出其图像来看一下数据点：

我们来创造深度不同的决策树来看一下回归的效果：

# 单棵决策树回归
plt.figure(figsize=(19, 10), facecolor='w')
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = DecisionTreeRegressor(max_depth=i)
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='%d深度'%i, zorder=2)
    ax0.legend()

plt.grid(True)
plt.legend()
plt.show()

画出图像如下：

随着深度的增加效果是越来越好，如果再增加深度的话就有点过拟合的危险了，如果我们使用bagging来多尝试一下效果如何吧

# BaggingRegressor回归
plt.figure(figsize=(22, 10), facecolor='w')
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = DecisionTreeRegressor(max_depth=i)
    dtr = BaggingRegressor(dtr, n_estimators=10, max_samples=0.2)
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='深度为%d的10棵树的bagging'%i, zorder=2)
    ax0.legend()
plt.grid(True)
plt.show()

与单棵树相比，使用多棵树就没有了那么多的阶跃，比较平滑了，效果算是提升了吧。如果是使用常规的回归呢，我们试一下Ridge的回归

# Ridge回归
plt.figure(figsize=(19, 10), facecolor='w')
ridge = RidgeCV(alphas=np.logspace(-3, 2, 20), fit_intercept=False)
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = Pipeline([('poly', PolynomialFeatures(degree=i + 2)), ('Ridge', ridge)])
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='%d 阶Ridge'%(i + 2), zorder=2)
    ax0.legend()
plt.grid(True)
plt.show()