使用KNIME和Spark进行时间序列分析

需求预测

我认为我们都同意,知道未来会发生什么使生活更加轻松。 对于生活事件,洗衣机和冰箱的价格或整个城市的电能需求而言,都是如此。 知道明天或下周需要多少瓶橄榄油,可以在零售商店中制定更好的进货计划。 了解汽油或柴油价格可能上涨的情况,可使货运公司更好地计划其财务状况。 这种知识可以提供帮助的例子数不胜数。

需求预测是数据科学的一大分支。 其目标是使用历史数据和可能的其他外部信息来估计未来需求。 需求预测可以涉及任何数字:餐馆的访客,产生的kW / h,学校新注册,商店货架上所需的啤酒瓶,家电价格等。

预测纽约的出租车需求

作为需求预测的一个示例,我们将解决预测纽约市出租车需求的问题。 在纽约这样的大城市中,每天有超过13,500辆黄色出租车在街上漫游(根据《 2018年出租车和豪华轿车委员会概况》 )。 这使得了解和预测出租车需求对于出租车公司乃至城市规划者而言都是至关重要的任务,以提高出租车队的效率并最大程度地减少旅行之间的等待时间。

在本案例研究中,我们使用了纽约出租车数据集 ,该数据集可从纽约出租车和豪华轿车委员会(TLC)网站下载。 该数据集跨越纽约市的出租车旅行10年,其中包含有关每次旅行的广泛信息,例如上车和下车的日期/时间,位置,票价,小费,距离和乘客人数。 由于我们仅将本案例研究用于演示,因此我们仅使用了2017年的Yellow出租车子集。对于更一般的应用,将另外几年的数据包括在数据集中将很有用,至少能够估算年度季节性。

让我们设置本教程的目标,以预测下一个小时在纽约市所需的出租车行程。

时间序列分析:过程

需求预测问题是经典的时间序列分析问题。 我们有一个时间序列的数值(价格,访问者数量,kW / h等),并且我们希望根据过去的N个值来预测下一个值。 在我们的案例中,我们有一个每小时的出租车旅行次数的时间序列(图1a),并且我们要根据最近N个小时的出租车旅行次数来预测下一个小时的出租车请求次数。

对于此案例研究,我们通过以下步骤实现了时间序列分析过程 (图1):

  • 数据转换:聚合,时间对齐,缺失值估算和其他所需的转换,通常取决于数据域和业务案例
  • 时间序列可视化
  • 消除非平稳/季节性(如果有)
  • 数据分区以构建训练集(过去)和测试集(未来)
  • N个过去值的向量的构造
  • 训练一个或多个机器学习模型以实现数值输出
  • 预测误差的计算
  • 模型部署(如果可以接受预测误差)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值