机器学习（10）-随机森林案例（调参）之公共自行车使用量预测

最新推荐文章于 2024-08-22 09:38:43 发布

赵晞兮

最新推荐文章于 2024-08-22 09:38:43 发布

阅读量5.7k

点赞数 6

分类专栏：统计机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/blaank/article/details/106130599

版权

本文介绍了如何使用随机森林模型预测公共自行车的使用量，通过调参来提高模型性能。首先，对数据进行预处理，检查无缺失值。接着，通过线性回归、决策树和随机森林模型进行比较，随机森林模型表现出色，RMSE为18.028。在调参过程中，重点调整了n_estimators、max_depth、max_features等参数，最终将RMSE优化至14.492。

摘要由CSDN通过智能技术生成

1. 前言

1.1 背景介绍

公共自行车低碳，环保，健康，并且解决了交通中“最后一公里”的痛点，在全国各个城市越来越受欢迎。本次数据取自于两个城市某街道上的几处公共自行车停车桩。希望根据时间，天气等信息，预测出该街区在一小时内的被借取的公共自行车的数量。

1.2 任务类型

回归

1.3 数据文件说明

数据集	作用	说明
train.csv	训练集	文件大小为273KB
test.csv	测试集	文件大小为179KB

1.4 数据变量说明

训练集中共有10000条样本，预测集中有7000条样本

变量名	解释
id	行编号
y	一小时内自行车被借取的数量，在测试集中是需要被预测的数值
city	表示该行记录所发生的城市
hour	当时的时间，精确到小时，24小时计时法
is_workday	1表示工作日，0表示节假日或周末
temp_1	当时的气温，单位为摄氏度
temp_2	当时的体感温度，单位为摄氏度
weather	当时的天气状况，1为晴朗，2为多云、阴天，3为小雨，4为大雨
wind	当时的风速，数值越大风速越大

1.5 评估方法

评价方法为RMSE（Root of Mean Squared Error）

若真实值为 $y=(y_1,y_2,...,y_n)$ ，模型的预测值为 $\hat y=(\hat y_1,\hat y_2,...,\hat y_n)$ ，那么该模型的RMSE的计算公式为：
$RMSE=\sqrt {\frac{\sum_{i=1}^n(y_i-\hat y_i)^2}{n}}$