尽管人类的活动具有很大的随机性,但还是会受到时间或空间的限制,本文目的是通过研究三类能隐含用户位置的数据,对这类数据建模,从而发现用户活动的规律和特征。
文中收集了三类数据集:BrighKite、Gowalla和手机用户数据。其中前两种网站是基于位置(LBSN)的社交网络,通过用户签到功能定位用户位置;手机用户数据是通过手机信号塔跟踪通话两端的用户位置。
首先是对用户签到特点的分析,其主要目的是找到LBSN数据与用户活动之间的关系,其步骤如下:
① 用户签到位置在哪?用来确定用户的“家”,把所有离散的签到数据划分成各个规模很小的数据集(按地理空间比例缩小规模),分析每个数据集中频率最高的数据,定义为某一用户的“家”。
② 用户会去离家多远的地方旅行?用来确定用户活动的范围。通过分析用户随离家距离变化的签到概率,发现曲线在100km处有一较大变化;继而分析了用户朋友间住址的距离和随机用户