项目背景
自行车共享系统是一种租赁自行车的方法,注册会员、租车、还车都将通过城市中的站点网络自动完成,通过这个系统人们可以根据需要从一个地方租赁一辆自行车然后骑到自己的目的地归还。
需要结合历史天气数据下的使用模式,来预测华盛顿共享自行车的租赁需求
数据提供了跨越两年的每小时租赁数据,包含天气信息和日期信息,训练集由每月前19天的数据组成,测试集是每月第二十天到月底的数据
提出问题
- 通过测试集中的天气等特征值预测会员租赁数量,临时租赁数量和总租赁数量
数据预处理
查看缺失值
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list the files in the input directory
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid',palette='tab10')
train=pd.read_csv('../input/train.csv')
train.info()
test = pd.read_csv('../input/test.csv')
test.info()
数据没有缺失值,但是没有缺失值不代表没有异常
检查异常值
train.describe()
先从数值型数据入手,看出租赁额(count)数值差异较大,所以希望观察一下count的密度分布
# 观察租赁额密度分布
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
fig.set_size_inches(6,5)
sns.distplot(train['count'])
ax.set(xlabel='count',title=