Bike sharing demand prediction
(一)数据集介绍
这是来自kaggle competition的一个数据集。记录了华盛顿特区的2011-2012年间每天每个小时的共享单车的相关数据。给出了 train 和 test 两份数据。在test数据中缺失 casual registered count 三列数据,这也是我们需要预测得到的数据。在train中给出的是一个月从1号到20号的数据,而test中给出21号到月底的数据。数据共给出12个变量。
1.1独立变量
Name |
Type |
Introduction |
Datetime |
yy/mm/dd xx:xx |
Hourly date +timestamp |
Season |
Integer |
1=spring 2=summer 3=fall 4=winter |
Holiday |
Integer |
1=holiday 0= not a holiay |
Weather |
integer |
1= Clear, Few clouds, Partly cloudy, Partly cloudy 2=Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 3=Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds 4=Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog |
Temp |
Float |
Temperature in Celsius |
Atemp |
Float |
“feel like” temperature in Celsius |
Humidity |
Integer |
Relative humidity |
Windspeed |
Folat |
Wind speed |
Working day |
integer |
1=working day 0=not a working day |
1.2关联变量
Name |
Type |
Introduction |
Casual |
Integer |
number of non-registered user rentals initiated |
Registered |
Integer |
number of registered user rentals initiated |
Count |
Integer |
Count=casual + registered |
1.3正确率测试
其中:
1. n是测试集中小时的个数
2. 是预测count
3. 是实际的count
4. Log(x)是自然算法
(二)数据预处理及可视化
2.1数据总览
1. import pandas as pd
2. train_df=pd.read_csv("E:/final repoet _ML/dataset/train.csv")
3. test_df=pd.read_csv("E:/final repoet _ML/dataset/test.csv")
4. train_df.info()
在训练集train中共12列数据,除了datetime之外,都是非空数值型数据(整型,浮点型)。因此对于几乎不需要对于数据进行处理。唯一需要注意的是对于datetime的划分以及处理,可能存在信息冗余的情况。可能需要“丢掉”datetime 中的某些数据
1. test_df.info()