2016大数据创新大赛——机场客流量的时空分布预测模型解析

在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

背景介绍

65559d3b6a2eb232d3a10196f51a756e0de47f45

SeaSide团队所要解决的问题是利用机场大量的数据去预测每个时刻、每个无线AP的连接人数,这个结果可以很好的反映机场的客流时空分布。可用的数据可以分为四个方面:

历史连接:包含每个无线AP的名称、时间戳、连接人数;

地理位置:包括登机口、无线AP所在的区域、无线AP的坐标、楼层、组号;

航班排班:包括航班起降的排班信息、预计时间、实际时间;

旅客行为:包括值机、安检及离开。

算法设计

时序模型

fc44950e94692a1265eba0011845fbe8088fa7cb

最初的想法是基于历史值去预测当前值。上图左边是多天的真实值和三轴历史均值,真实值一直围绕历史均值上下波动。三轴历史均值在不同的情况下各有优缺点,把历史均值扩展为更多的聚合指标之后,在聚合窗口上就得到了基础模型。在计算聚合模型的过程中,有三种方式:同点、同时段、同组。最直接的方式就是计算同一AP点在同一历史数据点的聚合值。为了减少时间维度的噪声,可以计算同时段同一AP点的历史数据聚合值。为了减少空间维度的噪声,可以计算同组历史数据聚合值。

乘机流程

891a2053d2f378c4b39cbb392a0dba87748fe413

整个乘机的流程表明,其在值机、安检、候机、行李提取处的旅客较为密集。所以,航班的起降会对这些区域造成很大的影响。

事件驱动

edfd339b7520fb4281ac2ab0e2e4da7195bd2da7

比如,某个航班预计在某个时间起飞,可以从左上图看到大家一般会提前一个半小时安检,进入候机区等待。基于这些观察统计了右边的信息,预测时间点后面多个时间窗口上起飞航班的数量,根据这些信息可以得知每个时间段旅客起飞的人数。针对航班晚点情况,预测了滞留旅客人数。

除了起飞信息,SeaSide团队还预测了到达信息(该时间点前/后到达航班数,对接机区、中转区、取行李区影响比较大)、地理位置信息(区分特殊区域)以及时间信息(区分特殊时段,比如夜间、节假日)。

维度灾难

bd669f278d111065e1fc38c02abe438531d80f9e

上述算法利用一个模型对所有的区域进行了预测,包含了五个方面的很多特征,然而,特征越多越好吗?特征数量和预测效果的关系图如左图所示,过了临界点之后,增加特征点会使预测效果变差。现在的模型有1472个特征,需要引入合理的先验知识来有效降低维度。

a1fad827468d897ed7650009157aca3140b96a70

首先,起飞降维方面,把机场分为四个区域,对于不同区域,并不是所有起飞登机口的信息都有用。比如,对于候机区,只需要为每个AP点获取其最近的6个登机口。其余区域的降维方法如上图所示。

c21d958cd656e3e69183c549dacfb4a2deae6bb5

其次,对于时间特征,其实有序变量,与线性回归不同,它是基于高维空间划分的预测回归模型,可以对有序变量根据训练数据对其进行合理的区间划分,因此,可以看做是1维的整数。对于位置特征,分区域之后只考虑本区域组号。

d65428443690e3575a6a79e4e6cfe467720ac33f

从左图可以看出,多个无线AP在一段时间内连接数是趋于稳定的,所以在预测更短期的连接数的时候更加准确。

总结展望

模型的基础是基于历史连接数据的时序模型,加入事件驱动、降低维度进一步提升了模型。更精确的航班信息、坐标信息可以进一步提升算法。本算法可以提升网络服务、机场服务的质量。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在进行大数据财务分析时,可以使用Python作为编程语言来处理和分析数据。Python有丰富的数据处理和分析库,如Pandas、NumPy和Matplotlib,可以帮助处理大规模的数据集和生成可视化报告。此外,还可以使用开源的分布式SQL查询引擎Presto来进行交互式的分析查询。Presto适用于处理大规模的数据,并可以实现快速的交互式分析。它可以对250PB以上的数据进行快速地交互式分析,并且在处理速度方面比传统的查询引擎如Hive和MapReduce要好上10倍以上。 另外,Amazon Kinesis Streams是一个用于处理流数据的服务,可以从数十万种来源中连续捕获和存储大量的数据。它可以用于收集和分析网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件等数据,满足大数据财务分析的需求。 对于商务智能方面的需求,可以使用开源的商务智能软件Pentaho。Pentaho是一个基于Java平台的商业智能套件,包括报表、分析、图表、数据集成、数据挖掘等工具软件。它以工作流为核心,强调面向解决方案而非工具组件,可以满足商务智能的各个方面的需求。 综上所述,大数据财务分析可以基于Python编程语言进行处理和分析数据,并可以借助Presto进行交互式查询和分析。此外,Amazon Kinesis Streams可以用于处理流数据,而Pentaho则是一个全面的商务智能套件,可满足各种商务智能需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值