Bike sharing demand prediction 【kaggle competition】

最新推荐文章于 2021-09-18 11:30:05 发布

leanzhi

最新推荐文章于 2021-09-18 11:30:05 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/weixin_42314808/article/details/80836993

版权

本文基于kaggle的Bike sharing demand数据集，通过数据预处理、可视化、相关性分析，选用线性回归、随机森林、xgboost进行预测。结果显示随机森林效果最佳，提出解决kaggle竞赛的快速方法。

摘要由CSDN通过智能技术生成

Bike sharing demand prediction

（一）数据集介绍

这是来自kaggle competition的一个数据集。记录了华盛顿特区的2011-2012年间每天每个小时的共享单车的相关数据。给出了 train 和 test 两份数据。在test数据中缺失 casual registered count 三列数据，这也是我们需要预测得到的数据。在train中给出的是一个月从1号到20号的数据，而test中给出21号到月底的数据。数据共给出12个变量。

1.1独立变量

Name	Type	Introduction
Datetime	yy/mm/dd xx:xx	Hourly date +timestamp
Season	Integer	1=spring 2=summer 3=fall 4=winter
Holiday	Integer	1=holiday 0= not a holiay
Weather	integer	1= Clear, Few clouds, Partly cloudy, Partly cloudy 2=Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 3=Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds 4=Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
Temp	Float	Temperature in Celsius
Atemp	Float	“feel like” temperature in Celsius
Humidity	Integer	Relative humidity
Windspeed	Folat	Wind speed
Working day	integer	1=working day 0=not a working day

1.2关联变量

Name	Type	Introduction
Casual	Integer	number of non-registered user rentals initiated
Registered	Integer	number of registered user rentals initiated
Count	Integer	Count=casual + registered

1.3正确率测试

其中：

1. n是测试集中小时的个数

2. 是预测count

3. 是实际的count

4. Log（x）是自然算法

(二）数据预处理及可视化

2.1数据总览

1.	import pandas as pd  
2.	train_df=pd.read_csv("E:/final repoet _ML/dataset/train.csv")  
3.	test_df=pd.read_csv("E:/final repoet _ML/dataset/test.csv")  
4.	train_df.info()