Bike sharing demand prediction 【kaggle competition】

Bike sharing demand prediction


(一)数据集介绍

这是来自kaggle competition的一个数据集。记录了华盛顿特区的2011-2012年间每天每个小时的共享单车的相关数据。给出了 train 和 test 两份数据。在test数据中缺失 casual registered count 三列数据,这也是我们需要预测得到的数据。在train中给出的是一个月从1号到20号的数据,而test中给出21号到月底的数据。数据共给出12个变量。

1.1独立变量

Name

Type

Introduction

Datetime

yy/mm/dd  xx:xx

Hourly date +timestamp

Season

Integer

1=spring 2=summer

3=fall   4=winter

Holiday

Integer

1=holiday 0= not a holiay

Weather

integer

1= Clear, Few clouds, Partly cloudy, Partly cloudy

2=Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist

3=Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds

4=Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog

Temp

Float

Temperature in Celsius

Atemp

Float

“feel like” temperature in Celsius

Humidity

Integer

Relative humidity

Windspeed

Folat

Wind speed

Working day

integer

1=working day 0=not a working day

1.2关联变量

Name

Type

Introduction

Casual

Integer

number of non-registered user rentals initiated

Registered

Integer

number of registered user rentals initiated

Count

Integer

Count=casual + registered

1.3正确率测试


其中:

1.     n是测试集中小时的个数

2.     是预测count

3.     是实际的count

4.     Log(x)是自然算法


(二)数据预处理及可视化

2.1数据总览

1.	import pandas as pd  
2.	train_df=pd.read_csv("E:/final repoet _ML/dataset/train.csv")  
3.	test_df=pd.read_csv("E:/final repoet _ML/dataset/test.csv")  
4.	train_df.info()  

在训练集train中共12列数据,除了datetime之外,都是非空数值型数据(整型,浮点型)。因此对于几乎不需要对于数据进行处理。唯一需要注意的是对于datetime的划分以及处理,可能存在信息冗余的情况。可能需要“丢掉”datetime 中的某些数据

1.	test_df.info() 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值