本次案例用到的是kaggle网站(Bike Sharing Demand | Kaggle)提供了某城市的共享单车2011年到2012年的数据集。该数据集包括了租车日期,租车季节,租车天气,租车气温,租车空气湿度等数据。本次将使用python对这一数据集进行探索性分析,以了解共享单车的租用情况与哪些因素有关。
Data Fields(数据特征描述):datatime - 日期+时间
season -
1=春天
2=夏天
3=秋天
4=冬天
holiday - 是否是节假日
workingday -
1=工作日
0=周末
weather -
1:晴天,多云
2:雾天,阴天
3:小雪,小雨
4:大雨,大雪,大雾
temp - 气温摄氏度
atemp - 体感温度
humidity - 湿度
windspeed - 风速
casual - 非注册用户个数
registered - 注册用户个数
count - 给定日期时间(每小时)总租车人数
0,环境搭建
环境:win10+Anaconda +jupyter Notebook
包:
数据分析包:Numpy,pandas,
画图包:matplotlib,seaborn ,
缺失值可视化查询包:missingno
日期变量处理相关的包:calendar,datetime
1,准备工作
用jupyter notebook处理数据,需要先做一些准备,需先把一些必要的数据分析包导入操作台。#数据处理包导入
import numpy as np
import pandas as pd
#画图包导入
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
sns.set()
#日期处理包导入
import calendar
from datetime import datetime
#jupyter notebook绘图设置
%matplotlib inline
%config InlineBackend.figure_format="retina"
#读取数据
BikeData = pd.read_csv("bike.csv")
数据读取后,可以开始对数据进行简单的预览。
预览内容主要包括了解数据集的大小,字段的名称,数据格式等等,为后续的数据处理工作做准备。数据集大小BikeData.shape
#输出:
(10886, 12)查看数据表中具体的数据内容,不查看所有数据,只查看开始或结束的几行,熟悉一下数据具体内容即可。BikeData.head(5)
查看数据类型BikeData.dtypes
#输出:
datetime objec