大数据GIS系列(2)——空间大数据处理与分析案例

高速发展的信息化技术使得与空间位置相关的数据积累越来越多,空间数据的存储、分析与可视化传统技术已逐渐无法满足需求,亟需使用承载力更强、可靠性更高、计算速度更快的方法。分布式技术为空间大数据的处理与分析提供了有效的解决方案,下面就以一个十亿数据量级别的出租车位置数据为例,为大家介绍如何使用分布式技术进行空间大数据的可视化与分析。

1 背景介绍

纽约市出租车和轿车管委员会(TLC)目前公开发布了详细的出租车历史数据集,包括了从2009年1月到2016年6月期间几十亿条的城市内部个体出租车载客记录。每条记录都包括载客的上下车地点、上下车时间,以及载客距离、载客时长、车辆类型等信息。

这为我们研究出租车的运营情况以及乘客的出行模式提供了可能,如各行政区不同类型的出租车分布情况,工作日各时段从某居民区打车到达机场的耗时情况,乘客下车地点对出租车接到下一单的等待时间的影响等。

2 数据预处理

这些含有出租车上下客信息的数据集以CSV文件的方式提供,Spark有专门的函数来将这种记录间以换行符分隔的文件转换为RDD,RDD的每个元素即一行文本信息。接下来我们需要做的是提取每行中按逗号分隔的属性信息,其中的时间数据即上下车时间和空间数据即上下车地点对于接下来要进行的时空分析是十分重要的。

首先我们需要知道每种属性对应的列号,来将相应的字符串转成我们需要的类型如整型、浮点型或时间类型,再将浮点坐标构造成SuperMap iObjects for Spark中的点类型的Feature或包含时间特征的FeatureHasTime对象。一般来说,通过阅读数据格式说明及数据的前几行记录,我们即可明确这些信息。然而需要注意的是,对于大规模数据集,经常有一些记录不满足数据格式的要求,它们或者字段个数与其它记录不同,或者

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值