简介
不知从什么时间起,“共享单车”这一概念在忽然间火遍了全国,ofo小黄车,摩拜单车……逐渐走入到我们的生活中。特别是在一线城市,共享单车成为广大白领们不可或缺的交通工具。
今天我们就kaggle上的共享单车数据集进行分析。
分析目标从时间维度分析1.一天中的哪个时间段是用车高峰?
2.一周7天中的用车情况。
3.不同月份的用车情况对比。
4.2011与2012年用车情况分析。
从用户维度分析1.会员与非会员的单车需求量对比。
2.会员与非会员的用车时间是否有差异。
3.会员与非会员在一周中的每一天用车量。
从季节维度分析用车频次是否随着季节的变化而改变?
1.加载包和读取数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.style.use('ggplot')
df = pd.read_csv('train.csv')
df.head(2)datatime : 日期时间
season (季节): 1-春天;2-夏天;3-秋天;4-冬天
holiday (是否为节假日)
workingday (工作日): 1为工作日 ;0为周末
weather(天气): 1-晴天,多云;2-雾天,阴;3-小雪,小雨; 4-大雨,大雪,大雾
temp : 气温摄氏度
atemp : 体感温度
humidity : 湿度
windspeed : 风速
casual : 非注册用户个数
registered : 注册用户个数
count : 给定日期时间(每小时)总租车人数
# 查看数据类型,各个字段是否有缺失值
print(df.shape,'\n')
df.info()数据集一共有10886条数据,并无缺失值。
# 描述性统计
df.describe()
观察数据,从 count 字段看,平均每小时有191人用车,最多的时候每小时有977个用户用车,属于用车高峰期。
结合分位数和平均值看,平均值大于中位数,说