2018年资本寒冬,两大单车巨头,一家易主一家欠债,虽然共享单车给我们带来了不少便利,但是扣除资本的风头,共享单车该如何继续走下去。我们借分析国外共享单车的数据,看看是否能为我们国内的共享单车市场指明一条道路。
1.收集数据:
数据下载自Kaggle
Bike Sharing Demand | Kagglewww.kaggle.com1.1 项目说明
Bike sharing systems are a means of renting bicycles where the process of obtaining membership, rental, and bike return is automated via a network of kiosk locations throughout a city. Using these systems, people are able rent a bike from a one location and return it to a different place on an as-needed basis. Currently, there are over 500 bike-sharing programs around the world. The data generated by these systems makes them attractive for researchers because the duration of travel, departure location, arrival location, and time elapsed is explicitly recorded. Bike sharing systems therefore function as a sensor network, which can be used for studying mobility in a city. In this competition, participants are asked to combine historical usage patterns with weather data in order to forecast bike rental demand in the Capital Bikeshare program in Washington, D.C.
1.2 数据内容说明
比赛提供了跨越两年的每小时租赁数据,包含天气信息和日期信息,
训练集由每月前19天的数据组成,测试集是每月第二十天到当月底的数据。
1.3 提出问题
使用可视化方式显示数据特性
1.4 变量说明
datetime 日期+时间 数据格式:2011/1/1 00:00:00
season 季节 (1代表春天、2代表夏天、3代表秋天、4代表冬天)
holiday 节假日 是否节假日
workingday 工作日 是否工作日(非周末、非节假日)
weather 天气
(1: Clear, Few clouds, Partly cloudy, Partly cloudy 1、晴朗,少云,晴间多云,部分多云
2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 2、薄雾+多云,薄雾+裂云,薄雾+少云,薄雾
3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds 3、小雪,小雨+雷暴+散云,小雨+散云
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog 4、大雨+冰托+雷暴+雾,雪+雾)
temp 温度(单位:摄氏度)
atemp 感知温度(单位:摄氏度)
humidity 相对湿度
casual - 非注册用户个数
registered - 注册用户个数
count - 给定日期时间(每小时)总租车人数
2.准备数据:
2.1导入数据
2.2 检查并处理异常值
3.数据清洗
3.1数据预处理
由于该数据集不存在缺失值,故无需处理
3.2特征工程
将datetime列分为单独的时间列
分别查看租赁数量及相关因素(temp(温度),atemp(体感温度),humidity(湿度),windspeed(风速))的分布情况
4.分析
4.1相关性分析
count与注册会员、非注册会员、时间、温度、感知温度相关性较强
可以看出特征值对租赁数量的影响力度为,时段>温度>湿度>年份>月份>季节>天气等级>风速>星期几>是否工作日>是否假日 接下来再看一下共享单车整体使用情况。
从总体数据分析来看,注册会员和非注册会员的总体趋势和走势相当。
只有工作日,注册会员与非注册会员区别较大。注册会员在工作日的使用量比非工作日的多,非注册会员在非工作日的使用量比工作日的多。
4.2日期和时间的影响4.2.1不同年份
结论:不管是注册用户还是非注册用户,2012年共享单车的租赁数量明显超过了2011年的数量,可以说明大众对于共享单车接纳程度在逐步提升。
4.2.2不同月份
结论:总体上看无论是2012年还是2011年,每个月的变化趋势大致一致,租赁数量在4月-10月份呈现高值,分析原因可能是这几个月天气较好,温度适宜,大众选择使用单车出行。会员与非会员之间存在一定差别,同时2011和2012年最高点在不同月份。
4.2.3工作日和节假日的对比
4.2.3.1工作日和非工作日在每个时间段平均数上的对比
4.2.3.2工作日和节假日在每个时间段平均数上的对比
工作日会出现明显的早高峰、晚高峰,非工作日和节假日主要体现在中午出现一定的流量。节假日会出现晚归高峰段。
4.2.4时间段的对比
会员在使用时间上有明显的区别,在上下班高峰期使用量大,非会员使用时间较为平滑。
4.3其他因素分析4.3.1 温度因素
4.3.1 感知温度因素
实际温度和感知温度在整体数据上差异不大,感知温度的波动相对较大,可能受到其他气候因素影响。
实际温度和感知温度的租赁最高峰不同,一个在36摄氏度,一个在40摄氏度。看来验证了上面的分析,其他因素也会和温度一起对租赁数进行影响。
4.3.2 天气状况因素
不同的天气状况对租赁均有影响。有个异常现象,我们往往认为恶劣天气会减少租赁数,但上图显示数据是在小雪、小雨状况下租赁数最少,最恶劣天气下租客并不是最少。
4.3.3 湿度因素
观察一下租赁人数随湿度变化趋势,按湿度对租赁数量取平均值。
可见湿度在20%左右是租赁的最高峰。
通过本次的学习,我基本掌握了柱状图、折线图、箱式图的绘制,也为数据可视化的学习走出第一步。
这个课程我大概拖延了快半年,这个学期我学习了数据模型和数据分析其实相辅相成。让我对数据分析更加深入了解,也会加快后期学习。我要通过寒假,快速完成所有数据分析课程,也找一个新的方向更加深入学习。