监督学习 - 随机森林回归（Random Forest Regression）

草明

已于 2024-01-12 11:17:42 修改

阅读量3.4k

点赞数 8

分类专栏：数据结构与算法文章标签：随机森林回归算法机器学习人工智能

于 2024-01-11 10:16:23 首次发布

本文链接：https://blog.csdn.net/galoiszhou/article/details/135520368

版权

数据结构与算法专栏收录该内容

88 篇文章

订阅专栏

本文介绍了随机森林回归，一种基于集成学习的回归算法，通过随机抽样和随机特征选择构建多个决策树以提高模型性能。它具有鲁棒性和特征重要性分析的特点。通过Scikit-Learn库实例展示了如何使用随机森林回归进行预测和模型评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是机器学习

随机森林回归（Random Forest Regression）是一种基于集成学习的回归算法，它通过整合多个决策树的预测结果来提高模型的性能和鲁棒性。随机森林是一种Bagging（Bootstrap Aggregating）方法，它通过对训练数据进行有放回的随机抽样（bootstrap抽样）构建多个决策树，并且在每个决策树的节点上使用随机特征子集来进行分裂。

以下是随机森林回归的主要特点和步骤：

数据准备：与决策树回归类似，随机森林回归也需要准备包含特征和目标变量的训练数据集。
随机抽样：对训练数据进行有放回的随机抽样（bootstrap抽样）来创建多个训练数据的子集，用于每个决策树的训练。
随机特征选择：对于每个决策树的每个节点，随机选择一个特征子集，然后基于选定的特征进行分裂。这有助于降低各个决策树之间的相关性。
树的构建：对于每个子集，使用随机特征子集构建一个决策树。这可以是通过对数据递归划分来完成，直到达到停止条件，例如树的深度达到最大深度或节点包含的样本数小于某个阈值。
预测：对于新的输入数据，将其传递给每个决策树，得到多个预测结果。最终的预测结果是所有决策树预测结果的平均值。
模型评估：使用测试数据集对整个随机森林模型进行评估，可以使用回归性能指标，如均方误差（Mean Squared Error）等。

随机森林回归具有以下优点：

鲁棒性：由于随机森林是通过多个决策树的集成，它对于噪声和过拟合的鲁棒性较强。
高性能：随机森林通常能够在不需要过多调整参数的情况下表现出色。
特征重要性：随机森林可以提供每个特征的重要性度量，这对于特征选择和解释模型非常有帮助。

在实践中，可以使用Scikit-Learn库中的RandomForestRegressor类来实现随机森林回归。以下是一个简单的代码示例：

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np
import matplotlib.pyplot as plt

# 创建示例数据集
np.random.seed(42)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, X.shape[0])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林回归模型
rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)

# 在训练集上训练模型
rf_regressor.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = rf_regressor.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差（MSE）: {mse}")

# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_pred, color="cornflowerblue", label="prediction")
plt.xlabel("data")
plt.ylabel("target")
plt.title("Random Forest Regression")
plt.legend()
plt.show()