简单的随机森林案例

最新推荐文章于 2025-04-23 18:59:51 发布

小菜鸡1145

最新推荐文章于 2025-04-23 18:59:51 发布

阅读量916

点赞数 9

文章标签：随机森林机器学习深度学习

本文链接：https://blog.csdn.net/m0_62800009/article/details/142602112

版权

1、前言

随机森林（Random Forest）是一种基于决策树的集成学习算法，通过构建多个决策树并结合它们的预测结果来提高模型的准确性和稳定性。每棵树只对随机的一部分特征进行训练，并且样本也是通过自助法（bootstrap）随机抽取的，从而减少过拟合并提高模型的泛化能力。

本文同样以上一篇文章的案例，通过随机森林算法进行训练和预测。我们来了解一下随机森林算法实现的基本步骤：
1、数据准备：我们需要一个数据集来进行分类或回归任务。
2、模型创建：使用 RandomForestClassifier（分类任务）或 RandomForestRegressor（回归任务）来创建随机森林模型。
3、模型训练：将数据输入到模型中进行训练。
4、模型预测：使用训练好的模型进行预测。
5、评估模型：可以使用准确率或均方误差等指标来评估模型。

2、代码实现

根据上述提到的基本步骤我们一步一步开始实现：

1、数据准备

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 准备数据
data = {
    '天气': ['晴天', '晴天', '晴天', '阴天', '阴天', '下雨', '下雨', '晴天'],
    '温度': ['高', '高', '适中', '适中', '低', '低', '适中', '低'],
    '湿度': ['高', '高', '高', '高', '正常', '正常', '高', '正常'],
    '风力': ['无风', '有风', '无风', '无风', '有风', '有风', '无风', '无风'],
    '适合游玩': ['否', '否', '是', '是', '是', '否', '是', '是']
}

# 转换为DataFrame
df = pd.DataFrame(data)

# 特征和目标变量
X = df[['天气', '温度', '湿度', '风力']]
y = df['适合游玩']

# 将类别特征转换为数值编码
X = pd.get_dummies(X)

# 划分训练集和测试集（80% 训练，20% 测试）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=22)

这里每一步代码的具体用法和含义在前几篇中已经详细解释过了，就不再赘述了，如果不清楚的可以看一下我前几篇文章。

2、模型创建

# 创建随机森林分类器
model = RandomForestClassifier(n_estimators=100, random_state=12)

参数解释：
n_estimators=100：

        表示在随机森林中要构建的决策树的数量。通常来说，树的数量越多，模型的性能可能越好，因为它可以更全面地捕捉数据中的模式。然而，树的数量增加也会导致计算时间和内存消耗增加。
        常用的值一般在 100 到 500 之间，但具体数值可以通过交叉验证来确定最优值。
        random_state=12：

这个参数用于控制随机数生成器的种子，以确保结果的可重复性。每次运行模型时，如果 random_state 的值相同，模型的训练结果也会相同。设定 random_state 有助于在调试和比较模型时，确保结果的一致性。

3、模型训练

# 训练模型
model.fit(X_train, y_train)

4、模型预测

# 预测测试集
y_pred = model.predict(X_test)

5、模型评估

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

可以看出这次的模型效果不错，但数据量很小，也说明不了什么，下次我们可以试试更大的数据集。

最后我们拿一组新的数据看看效果：

3、结语

随机森林适合用于特征复杂、数据量大、噪声存在且需要稳健性能的分类或回归任务，下一次我们将找一个大一点复杂一点数据集来进行测试。

最后，大家如果觉得对您有帮助的话麻烦点点赞，如果有错误或者纰漏希望您能在评论区指出，帮助大家能更好地理解和掌握相关知识！