OPTDP: Towards optimal personalized trajectory differential privacy for trajectory data publishing首先根据作者所说的,有以下几个贡献点
提出了一种基于停留点和频繁子轨迹的隐私偏好自学习的位置隐私级别识别方法。该方法充分考虑位置统计特征与隐私需求之间的关系,将位置隐私分为四个级别,实现了用户级别和位置级别的个性化隐私级别识别。
提出了一种轨迹位置匹配算法,无需特征提取即可自动学习轨迹位置的隐私级别。该算法为每个用户的轨迹建立概率移动模型,根据移动模型和推土机距离(EMD)对轨迹之间的位置进行聚类,从而获得最佳的语义位置匹配结果和统计语义相似度。
提出了最优个性化轨迹DP(OPTDP),在最优轨迹差分轨迹隐私的基础上实现了个性化隐私保护。
因为最近在做轨迹聚类这方面的研究,我对他的前两点比较有兴趣,这里写一下学习的笔记。
首先是其提出来的隐私分级。这个分层文中分为了四级:
繁子轨迹停留点:此类点通常是用户的家庭住址、公司等,与用户隐私高度相关。因此,隐私保护需求最高,将其隐私级别设置为1级。
频繁子轨迹的经过点:此类点通常是用户的日常路径,例如每天的公交路线、回家的路线等。它们往往不是用户最敏感的位置,但却可以从侧面泄露用户的隐私。因此,它们与用户隐私具有高度相关性,有一定的隐私保护要求。我们将他们的隐私级别设置为 2 级。
不频繁子轨迹停留点这类点通常是用户一生中偶尔长时间停留的地方,如超市、娱乐场所、朋友家等。很快。它们不是用户的敏感位置,但可以在一定程度上反映用户的兴趣或其他相关信息。因此,我们将他们的隐私级别设置为 3 级。
不频繁子轨迹经过点:此类点是用户偶尔经过的地方,与用户隐私关系不大,因此我们将其隐私级别设置为4级。
那么如何界定其停留点以及频繁子轨迹呢?
停留点则是通过判断轨迹中一个点的停留时间是否超过设定的时间阈值,若超过则设置为停留点。频繁轨迹则是一连串的轨迹点在数据集中出现的次数设置一个阈值,超过阈值则设置为频繁子轨迹。
设计完上述的隐私分级,之后要做的就是进行聚类。这里参考的聚类方式其选用的是Earth Mover's Distance(EMD)详细可以看Earth Mover's Distance(EMD)—— 推土机距离-腾讯云开发者社区-腾讯云
当然这种度量方法也不是单一的,还有其他方式比如之前LBC轨迹聚类中提到的基于JS散度之后进行谱聚类,这篇论文中提到的EMD距离也可以作为一个衡量标准。本来应该是两个轨迹间进行计算,但因为这样会使开销过大,作者选择将转移概率矩阵作为替代,减少了计算量。
在此给我的两个启发,一个就是停留点作为一个自适应的方式,停留点的设置可以使得整个轨迹颗粒度变得更细,对比LBC聚类单纯的以时间为间隔来说其效果好像能够更好,频繁轨迹则可以作为生成假轨迹的参考,频繁模式也可以不仅仅参考地理距离,也可以尝试参考语义频繁,这也是我研究的新思路。