机器学习十大算法（4）随机森林详解（附代码实现）

哥兜兜有糖

已于 2024-06-15 17:41:28 修改

阅读量2.1k

点赞数 19

分类专栏：机器学习文章标签：机器学习算法随机森林

于 2024-06-12 19:16:01 首次发布

本文链接：https://blog.csdn.net/qq_45591302/article/details/139634463

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

一、简介

随机森林算法是一种集成学习方法，通过构建多个决策树模型来进行分类或回归任务。随机森林算法的基本思想是将多个决策树模型集成在一起，通过投票或平均的方式进行预测。具体步骤如下：

1. 随机选择训练数据集中的部分样本进行有放回抽样，构建一个决策树模型。这样可以保证每个决策树的训练数据不完全相同，增加模型的多样性。

2. 在每个节点上，随机选择一部分特征进行划分。这样可以保证每个决策树的划分规则不完全相同，增加模型的多样性。

3. 重复步骤1和步骤2，构建多个决策树模型。

4. 针对分类任务，使用投票的方式进行预测，即每个决策树对于一个样本都进行预测，最后选择预测结果最多的类别作为最终的预测结果。针对回归任务，使用平均的方式进行预测，即每个决策树都对一个样本进行预测，最后选择预测结果的平均值作为最终的预测结果。

单决策树与随机森林示例图：

随机森林预测的示例：现在要对浣熊进行预测，使用随机森林算法，其中每个决策树都对浣熊进行一次预测，多数决策树认为是浣熊，则最终预测结果为浣熊。

决策树参考如下文章：

http://t.csdnimg.cn/Zelw8http://t.csdnimg.cn/Zelw8

随机森林算法具有以下优点：

1. 随机森林算法可以处理高维数据，且对于特征的缺失和异常值不敏感。

2. 随机森林算法可以通过特征的重要性评估，提供有关特征的重要信息，用于特征选择。

3. 随机森林算法可以有效地处理大型数据集，具有较高的计算效率。

4. 随机森林算法能够自动处理非线性关系和交互效应，具有较强的建模能力。

总之，随机森林算法是一种强大的集成学习方法，能够有效地进行分类和回归任务，并具有良好的鲁棒性和泛化能力。

二、代码实现

使用内置的鸢尾花（Iris）数据集来演示如何训练和使用随机森林模型。

鸢尾花数据集（iris dataset）是一组用于机器学习的经典数据集之一。这个数据集由英国统计学家和生物学家Ronald Fisher在1936年收集和整理。

鸢尾花数据集包含了150个样本，每个样本包含了鸢尾花的四个特征：花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）和花瓣宽度（petal width）。每个样本也有一个类标签，鸢尾花数据集包含三种类别：山鸢尾（Setosa）、变色鸢尾（Versicolor）和维吉尼亚鸢尾（Virginica）。

代码实现如下：

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林分类器实例
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf_classifier.fit(X_train, y_train)

# 预测测试集
y_pred = rf_classifier.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Random Forest Accuracy: {accuracy:.2f}")

首先从scikit-learn库中导入了必要的模块和类。然后加载了鸢尾花数据集，并将其分为训练集和测试集。

然后创建了一个随机森林分类器实例，并设置了一些参数，如n_estimators表示森林中树的数量，random_state用于确保结果的可重复性。之后，模型在训练集上进行训练，并在测试集上进行预测。

最后，计算并打印了模型的准确率。