出租车轨迹处理:背后庞大的技能树

近期在处理GPS轨迹数据的过程中,却无意中接触到了很多前沿的东西,不得不感慨这些热门的技术,其实都是串联的。

一、机器学习

1.1 DBSCAN

前天用DBSCAN算法实现了成都市出租车轨迹的聚类(微软的一篇文章,通过聚类后的热点来识别城市功能区)。

1.2 EM、K-Means聚类

今天读了一篇刘瑜老师的论文,是对出租车数据构建时空矩阵后,通过EM算法来进行利用类型的分类。而在具体实现的过程中,又出现了K-means的字眼…所以,果然还是绕不开这几个知名的算法啊。那样正好,就借助这个项目,把这些知识点都补一下。

1.3 聚类+混合像元分解

刘老师实验室某师兄的文章:首先在全局得到五种微博签到数据的时空轨迹,作为五种类型的“基曲线”。然后对每一个地理格网内的微博签到数据的时空轨迹进行“混合像元分解”。得到每一个格网内,不同使用类型混合比例。文中提到但没有践行的方法是:1:在社会感知数据未进行标注时,可以通过聚类的办法得到“基曲线”,然后再进行不同格网的混合像元分解。

二、深度学习

2.1 CNN

读了微软研究院的几篇文章,同样是用三个卷积提取不同时间段的特征(1h前、1天前、1周前),然后数据融合后,再进入卷积训练,最后也是用来实时预测。有意思的是该网络还加入了其他信息,如是否为周末。

2.2 CNN+LSTM/RNN

读了一篇北邮牛琨老师的文章,CNN+LSTM构建网络:LSNN,来对出租车数据进行学习,实时预测网格内的流量(不同时间段)。

三、Spark(大数据处理)

还是前面提到的牛琨老师的文章,发邮件找师姐要到了源码,但是出租车数据的处理是用spark写的…于是,今早折腾了好久用来安装spark,费了好大的劲,现在还是没有跑通程序。

四、简单的数据清理

主要是用pandas读取、处理出租车数据,切实感受到了pandas的强大之处。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值