共享单车需求预测

第三章 数据预处理
随着社会经济的不断发展和出行需求的增多,共享单车已经成为每个人的必需品。同时,随着互联网的普及和发展,共享单车行业,这是一个重要的“共享经济”产业,已逐步进入了移动互联时代。移动互联对共享单车发展的推动作用越来越大。然而,随着单车的数量增加,社会面临的问题也日益增多。
今天在中国,车辆的数量每天都在增加,随着车辆数量的增加,大气中的二氧化碳排放量也在增加。为了解决这个问题,中国需要自行车共享系统。随着自行车共享系统的出现,人们将被鼓励使用自行车进行短途旅行。由于这种交通将减少,在大气中有害气体的排放将更少。除此之外,使用自行车的人也有健康益处。人们可以保持健康,一项研究证明,骑自行车是一种很好的运动,可以预防心脏病。骑自行车可以增强耐力,增强心血管健康,燃烧卡路里,减少压力。
自行车共享是一个新兴行业,在西方国家非常流行。我们将调查一些关于使用自行车共享系统的统计数据。根据维基百科(Wikipedia)的数据,截至2014年8月,全球已经有600个城市拥有自行车共享系统,其中大多数位于西方国家,共有约50万辆自行车。
通常在自行车共享系统是非常重要的,管理员应该知道需要多少个周期在每个自行车站,知道这个计数使他们安排适当数量的周期在站台和决定是否一个特定的车站需要额外数量的自行车。因此在本研究中我们研究了各种预测算法,如随机森林、决策树、梯度推进机。本研究的重点是哪种算法能更好地用于自行车共享需求预测的实际问题。
3.1 数据介绍
作为构建预测模型的参与者,在大多数实时情况下,我们不可能每次都拥有完全结构化的数据。本研究使用共享单车的公共数据集进行模型构建。数据具有以下属性,在下表中解释

图3-1 共享单车数据截图
图3-2 共享单车数据介绍
本论文旨在学习如何将Python语言工具用于数据分析。在共享单车领域,企业对市场需求的准确研判是在激烈竞争中求得生存的关键因素,而数据挖掘技术成为解决这一问题的突破口。根据某市共享单车投放和使用的相关数据,通过对用户使用共享单车的时间因素,环境因素和主观因素的研究,运用数据挖掘算法预测顾客需求,进一步深化共享单车的规模建设和优化调度,最后给共享单车运营商提出合理建议
3.2数据预处理
本由于数据可能不完整或不一致或有噪声,因此需要对数据进行预处理。有很多方法来处理未处理的数据,即:接下来会给大家分别介绍该数据集各个维度的含义:
i)数据清理:在这个术语中,我们的意思是填补数据中缺失的值,识别和删除数据中的异常值,平滑数据;
ii)数据转换:在此阶段进行归一化、聚合等操作;
iii)数据约简:在这一阶段对数据集进行修改,使模型产生的结果几乎相同,但去除数据集中不必要的值;
iv)数据集成:在这一阶段,如果需要,将不同来源的数据进行合并,同样去除冗余;
在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集进行丢弃、填充、替换、去重等操作,以达到去除异常,纠正错误、补足缺失的目的。
图3-3 共享单车数据异常值情况
3.3特征工程
这是一个分析人员使用关于数据的领域知识并在数据集中创建新特性的过程,以便新特性有助于提高模型的准确性。特性工程没有明确的路径,但它取决于分析人员的技能和数据类型。特征工程需要在训练数据和测试数据上进行,是构建良好预测模型的重要组成部分。
在这个数据集中,我们做了以下特性工程:
i) 将data-time属性以适当的格式转换,并将日、月、年和小时分隔成单独的列,以便于对数据执行操作。
ii) 将温度、湿度、风速变量进行分类。这样做我们可以在模型中更好的准确性。
iii) 为季节属性创建虚拟变量,这里将季节变量分解为春、夏、冬3个二元变量。
图3-4 共享单车数据特征构建
3.4数据探索性分析
探索性数据分析是一种理解数据的统计方法,通常以可视化的方式进行。在外用数据分析中绘制的图表是为了便于分析人员更好地理解数据。对当前数据集的探索性数据分析如下:通过重新调整所述数据的各维度的值,所得到的数据向量落在[0,1]区间内。
因为我们必须预测将要租用的自行车的数量,所以最好的方法是从变量“count”开始预测。我们可以将“计数”分布分层为分类变量的盒图,并在另一个图中绘制“计数”和数字变量;
图3-5 count与天气的关系
图3-6 count与天气的箱线图
正如在上面的盒图中所看到的,计数分布是更大的图。中位数约为150个单位,还有许多离群值超过600。计数范围为0 ~ 1000个单位。当天气是极端的计数,即租用自行车的数量是少的,否则它的中位数增加。除了离群值之外,没有太大的区别。整体使用量受天气的影响较为明显,使用量大小排序为:晴天>阴天>雨天>风雪天。
图3-7 count与温度湿度和风速
通过温度湿度与count的图可以发现,温度在15°-30°左右使用人数比较多,湿度在20°-60°左右使用人数比较多,风速的影响非常小。

图3-8 工作日与节假日的需求
通过图可以看出,工作日期间,单车需求时段呈现主要在早上9点左右,下午6点左右,说明了大部分用户都已工作;非工作期间,单车需求时段主要在白天12点至下午6点,骑车游玩的人比较多;注册用户的需求量大于非注册用户。
图3-9 按年份统计每月使用量
由图可知,2012年的用车量明显高于2011年,多了大约1倍人群,两年中的月份使用量的趋势走向一致。现在从日期-时间和数量的图中我们可以得出结论,首都自行车共享项目变得越来越受欢迎,随着时间的推移,我们可以看到,数量在每年夏天增加
3.5 本章小节
本章首先介绍了汽车公司的背景和数据获取的来源,然后就获取到的数据内容做了详细的介绍,最后对于获取的数据进行了数据清洗和数据探索性一系列数据预处理。

第四章 模型
4.1 相关性分析
相关性分析是对两个或两个以上的随机变量之间的相关关系进行分析。其中,Pearson 相关系数是一种常用的相关分析方法,用于度量两个变量之间的相关程度。
图4-1 各变量相关性分析
Pearson 相关系数的取值范围为: r ≤1 , r 为正值表示变量之间为正相关关系,即因变量随着自变量的增长而增长;r 为负值表示负相关关系,与正相关方向相反。
通过图可知,温度和使用量有正相关关系,湿度与使用量有负相关关系,风速和使用量几乎不相关
4.2 随机森林模型
由传统的多元线性回归方法的自行车租赁需求预测模型,我们发现,传统的方法是不适合自行车租赁需求预测〇再次查看数据,我们发现的因素包含在季节,天气是这样一个哑变量因素,如季节,是1、2、3、4这样的表达式,使得线性回归分析不准确,根据这样数据的特点,让我想想随机森林的方法。为此,本文提出了一种基于随机森林的自行车租赁需求预测模型。
随机森林分类通过随机向量生长成“树”,每棵树生长不需要完全修剪。而在生成树的时候,每个节点变量只是随机选取的一小部分变量。即在使用变量(列)和数据(行)时进行随机化使用。通过这种方式随机生成大量的树木进行分类和回归分析,这就是所谓的“随机森林”。森林中的每棵树都依赖于一个随机向量,森林中的向量都是独立同分布的。最终的决策树是基于随机向量势树上的“投票”生成的,即随机森林的分类选择获得的票数最多。
随机森林是一种集成学习的分类方法,通过组合去相关的决策树进行操作。分类器的最终目标是减小泛化误差,提高分类精度。在随机森林中,树是通过在每个节点上随机选择一组特征来确定并切分生成。将特征集分解为随机值的子集,这些子集用于训练和测试每个独立的决策树。在生成大量的树之后,他们选择出最有代表性的类别。随机森林应用面广,能处理高维数据且训练速度较快,但随机森林较容易产生过拟合问题,对于推断超出范围的独立变量或非独立变量,其性能表现较差。
由于随机森林不是决策树剪枝的一种典型的单分类器,训练集的第一步是递归分析,生成形状如倒立的树结构;第二步分析树从根节点到叶节点的路径,产生一系列规则;最后,根据这些规则,对新数据进行分类或预测。随机森林模型过程的结构如下:
(1)从样本集合中随机抽取n个样本;
(2)从所有特征中随机选取k个特征,利用这些特征构造决策树;
(3)重复上述两步m次,生成m个决策树模型,形成随机森林;
(4)对于新数据,每棵树决策后,最后做出预测;

图4-2 随机森林算法示意图
使用有序回归树提高排名的一个合理解释是,在有序回归树中,更有可能选择一个与反应相关的预测器进行分裂。经常在树中选择并且出现在树的根节点附近的预测器很可能获得很高的重要分数。当应用顺序回归树的优势是,统计检验的力量,以正确地检测预测值和顺序反应之间的联系是更高的。因此,噪声预测器偶然产生较低的p值并被选择用于分离的可能性较小。所得的结果为上述模拟研究提供了证据。例如,我们可以检查森林中的树木,并计算在第一次分裂中选择了有影响力的预测器的树木的数量。如果由序数回归树组成的森林的树木的分数显著较高,这表明序数回归树在选择分裂预测器方面比分类树更准确。
总而言之,RF 算法可以看成是 Bagging 和随机子空间的结合,通过分类器组合进行预测,最终获得投票结果的集成学习方法。RF 算法中涉及两个重要的定理:收敛性和泛化误差上界。
4.2 模型简介
决策树结构随机森林的时候,为了提高效率,我们使用“GBM”库提高决策树的能力,每一个损失函数模型建立在前面模型的梯度下降方向.Loss函数描述模型的可靠度,损失函数越大,说明模型越容易出错(事实上,存在方差和偏差平衡的问题,但它假定损失函数越大,模型越容易出错)。如果我们的模型能够减少到保持损失函数,说明我们的模型在不断的改进,而最好的办法是使损失函数在梯度方向上向上和向下。
图4-3 随机森林算法参数
分布即我们选择高斯分布,由于预测问题,收缩尽可能小,但收缩过小,则需要增加迭代次数以达到最优模型,所需的时间和相应的计算资源增加。所以我们的收缩参数是0.005,而n_trees是5000。
4.3 模型评价指标
对分类回归模型评估的标准有很多,评估标准又有所差别。共享单车站点需求量预测问题可以看成是一个回归问题[25],所以本文采用 RMSLE(均方根对数误差),R2(决定系数)对本次实验模型进行性能评,公式如下所示

4.4 模型结果
通过我们的随机森林数据建模和GBM包提高决策树的能力,得到模型,我们预测自行车租赁需求。如下图所示,随机森林MSE为7,94,R平方为1.

图4-4 随机森林结果

图4-5 随机森林预测效果图

4.5 本章小节
本文对自行车租赁需求的预测,常规的多元线性回归模型并不适用。根据本文提出一种基于随机森林的自行车租赁需求预测模型,与“GBM”包来提高决策树的能力的过程中随机森林,随机决策树建在森林,森林里有多个随机森林模型泛化能力强,在训练的时候,树与树之间相互独立,且不失准确性。最终结果的正确率大大提高,各项评价指标取得理想效果。

  • 5
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值