决策树做回归及其与Ridge回归的对比

决策树是既可以做分类又可以做回归的模型,这篇文章我们来测试一下它的回归的效果如何。

首先,我们来生成一些数据:

import numpy as np
import matplotlib as mpl
from sklearn.linear_model import RidgeCV
from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False

def f(x):
    return 0.5 * np.exp(-(x+3) **2) + np.exp(-x**2) + 0.5 * np.exp(-(x-3) ** 2)

np.random.seed(0)
N = 200
x = np.random.rand(N) * 10 - 5  # [-5,5)
x = np.sort(x)
y = f(x) + 0.05 * np.random.randn(N)
x.shape = -1, 1
x_test = np.linspace(x.min() - 0.5, x.max() + 0.5, 1000)
plt.figure(figsize=(12, 8), facecolor='w')
plt.plot(x, y, 'ro', label='训练数据')
plt.plot(x_test, f(x_test), color='k', lw=3.5, label='真实值')
plt.grid(True)
plt.show()

画出其图像来看一下数据点:

我们来创造深度不同的决策树来看一下回归的效果:

# 单棵决策树回归
plt.figure(figsize=(19, 10), facecolor='w')
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = DecisionTreeRegressor(max_depth=i)
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='%d深度'%i, zorder=2)
    ax0.legend()

plt.grid(True)
plt.legend()
plt.show()

画出图像如下:

随着深度的增加效果是越来越好,如果再增加深度的话就有点过拟合的危险了,如果我们使用bagging来多尝试一下效果如何吧

# BaggingRegressor回归
plt.figure(figsize=(22, 10), facecolor='w')
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = DecisionTreeRegressor(max_depth=i)
    dtr = BaggingRegressor(dtr, n_estimators=10, max_samples=0.2)
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='深度为%d的10棵树的bagging'%i, zorder=2)
    ax0.legend()
plt.grid(True)
plt.show()

与单棵树相比,使用多棵树就没有了那么多的阶跃,比较平滑了,效果算是提升了吧。如果是使用常规的回归呢,我们试一下Ridge的回归

# Ridge回归
plt.figure(figsize=(19, 10), facecolor='w')
ridge = RidgeCV(alphas=np.logspace(-3, 2, 20), fit_intercept=False)
for i in range(1, 7):
    ax0 = plt.subplot(2,3,i)
    dtr = Pipeline([('poly', PolynomialFeatures(degree=i + 2)), ('Ridge', ridge)])
    dtr.fit(x, y)
    y_test = dtr.predict(x_test.reshape(-1, 1))
    ax0.plot(x, y, 'ro', label='训练数据')
    ax0.plot(x_test, y_test.ravel(), lw=2, label='%d 阶Ridge'%(i + 2), zorder=2)
    ax0.legend()
plt.grid(True)
plt.show()

看来效果不咋地,次数较低时效果很差,次数大时明显的龙格现象。

由此可见,决策树在某些情况下在回归方面还是有很好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值