随机森林案例之公共自行车使用量预测
1. 前言
1.1 背景介绍
公共自行车低碳,环保,健康,并且解决了交通中“最后一公里”的痛点,在全国各个城市越来越受欢迎。本次数据取自于两个城市某街道上的几处公共自行车停车桩。希望根据时间,天气等信息,预测出该街区在一小时内的被借取的公共自行车的数量。
1.2 任务类型
回归
1.3 数据文件说明
数据集 | 作用 | 说明 |
---|---|---|
train.csv | 训练集 | 文件大小为273KB |
test.csv | 测试集 | 文件大小为179KB |
1.4 数据变量说明
训练集中共有10000条样本,预测集中有7000条样本
变量名 | 解释 |
---|---|
id | 行编号 |
y | 一小时内自行车被借取的数量,在测试集中是需要被预测的数值 |
city | 表示该行记录所发生的城市 |
hour | 当时的时间,精确到小时,24小时计时法 |
is_workday | 1表示工作日,0表示节假日或周末 |
temp_1 | 当时的气温,单位为摄氏度 |
temp_2 | 当时的体感温度,单位为摄氏度 |
weather | 当时的天气状况,1为晴朗,2为多云、阴天,3为小雨,4为大雨 |
wind | 当时的风速,数值越大风速越大 |
1.5 评估方法
评价方法为RMSE(Root of Mean Squared Error)
若真实值为 y = ( y 1 , y 2 , . . . , y n ) y=(y_1,y_2,...,y_n) y=(y1,y2,...,yn),模型的预测值为 y ^ = ( y ^ 1 , y ^ 2 , . . . , y ^ n ) \hat y=(\hat y_1,\hat y_2,...,\hat y_n) y^=(y^1,y^2,...,y^n),那么该模型的RMSE的计算公式为:
R M S E = ∑ i = 1 n ( y i − y ^ i ) 2 n RMSE=\sqrt {\frac{\sum_{i=1}^n(y_i-\hat y_i)^2}{n}} RMSE=n∑i=1n(yi−<