近期在处理GPS轨迹数据的过程中,却无意中接触到了很多前沿的东西,不得不感慨这些热门的技术,其实都是串联的。
一、机器学习
1.1 DBSCAN
前天用DBSCAN算法实现了成都市出租车轨迹的聚类(微软的一篇文章,通过聚类后的热点来识别城市功能区)。
1.2 EM、K-Means聚类
今天读了一篇刘瑜老师的论文,是对出租车数据构建时空矩阵后,通过EM算法来进行利用类型的分类。而在具体实现的过程中,又出现了K-means的字眼…所以,果然还是绕不开这几个知名的算法啊。那样正好,就借助这个项目,把这些知识点都补一下。
1.3 聚类+混合像元分解
刘老师实验室某师兄的文章:首先在全局得到五种微博签到数据的时空轨迹,作为五种类型的“基曲线”。然后对每一个地理格网内的微博签到数据的时空轨迹进行“混合像元分解”。得到每一个格网内,不同使用类型混合比例。文中提到但没有践行的方法是:1:在社会感知数据未进行标注时,可以通过聚类的办法得到“基曲线”,然后再进行不同格网的混合像元分解。
二、深度学习
2.1 CNN
读了微软研究院的几篇文章,同样是用三个卷积提取不同时间段的特征(1h前、1天前、1周前),然后数据融合后,再进入卷积训练,最后也是用来实时预测。有意思的是该网络还加入了其他信息,如是否为周末。
2.2 CNN+LSTM/RNN
读了一篇北邮牛琨老师的文章,CNN+LSTM构建网络:LSNN,来对出租车数据进行学习,实时预测网格内的流量(不同时间段)。
三、Spark(大数据处理)
还是前面提到的牛琨老师的文章,发邮件找师姐要到了源码,但是出租车数据的处理是用spark写的…于是,今早折腾了好久用来安装spark,费了好大的劲,现在还是没有跑通程序。
四、简单的数据清理
主要是用pandas读取、处理出租车数据,切实感受到了pandas的强大之处。