基于GPS定位的出租车轨迹数据挖掘对交通运输和城市规划具有重要意义。主题模型可以有效地从出租车轨迹中提取语义信息,用于分析城市道路的交通情况。而常用的LDA模型忽略了轨迹的方向,不能准确地挖掘出租车的运动模式,从而影响交通情况的分析粒度。因此,有必要在主题建模时考虑轨迹的方向信息。
为此,本文采用了二元主题模型,而不是传统的主题模型来分析文本化的轨迹数据,并考虑轨迹的方向信息。进而提出了一种改进的先验算法来提取主题子轨迹,并使用它们来表示每个主题。最后,我们设计了一个具有多个链接视图的可视化分析系统,以方便用户从主题和主题子轨迹中交互式探索运动模式。
轨迹主题提取
出租车轨迹由若干个GPS位置组成,本文首先将GPS位置与道路名相匹配来对轨迹数据进行文本化,然后利用bigram主题模型提取轨迹主题。由于bigram模型是根据前n-1个单词预测当前单词,因此将其结合主题模型用于在轨迹主题中提取包含的方向信息。
图1 bigram主题模型的建模过程,其中红色箭头表示与LDA模型的区别,即考虑单词顺序。<