目录
文章分为以下五大部分项目介绍
数据准备
数据处理
数据分析
总结
一、项目介绍
针对共享租赁时代中比较火的共享单车项目,现分析kaggle提供的国外The Pronto Cycle Share的共享单车数据集。Pronto Cycle Share是一个非牟利组织,在2014年成立,该组织总部西雅图。
提出问题:
1.Pronto共享单车一天中哪个时间段使用人数最多?工作日和非工作日使用情况?一年中每个月份使用情况?
2.会员与非会员对共享单车需求量情况?使用共享单车的是男性多,还是女性多?使用共享单车的最多的是青年群体吗?
3. 天气因素,如温度、湿度、能见度,等,对共享单车使用情况有什么影响?
二、数据准备
1.数据集来源:https://www.kaggle.com/pronto/cycle-share-datasetwww.kaggle.com
该资源有三个数据集,包括stations, trip, and weather,时间跨度2014-2016。
2.字段描述
trip:
trip_id 订单编号
starttime 骑行开始时间
stoptime 骑行结束时间
bikeid 单车编号
from_station_id 出发站编号
to_station_id 到达站编号
usertype 用户类型
gender 性别
birthyear 出生年份
weather:
Date 日期
Temperature 温度
Dew_Point 露点
humidity 湿度
Sea_Pressure 海平面气压
Visibility_Miles 能见度
Wind_Speed 风速
Precipitation_In 降水量
三、数据处理
1.数据导入
#导入数据分析需要的包
import pandas as pd
import numpy as np
import datetime
#可视化包
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
%matplotlib inline
#忽略警告信息
import warnings
warnings.filterwarnings('ignore')
#导入数据集
trip = pd.read_csv('C:/Users/dwhyx/Downloads/cycle-share-dataset/trip.csv',encoding = 'utf-8', sep = ',')
weather = pd.read_csv('C:/Users/dwhyx/Downloads/cycle-share-dataset/weather.csv',encoding = 'utf-8', sep = ',')
#查看数据基本情况
trip.info()
we