师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究（2020）

本文链接：https://blog.csdn.net/A13526_/article/details/121180883

交通轨迹数据发布差分隐私保护算法研究（2020）

记录一些比较关键重要的点

1、论文摘要，几个重要观点：

用户大量的轨迹数据，如果未经任何处理，数据管理员就直接发布，用户的个人隐私就会被泄露
针对智能交通卡数据规模大、维度高以及稀疏的特点，本文围绕在满足差分隐私保护的前提下如何实现交通轨迹数据保护、以及频繁轨迹序列挖掘展开研究
具体研究的工作：
提出交通轨迹数据发布差分隐私保护算法 – 根据时空轨迹数据构建一颗无噪声的前缀树，前缀树保存了轨迹的公共前缀信息，包括时间戳、地点及计数。
提出差分隐私保护的频繁序列模式挖掘算法。为了减少噪声的添加，本文在挖掘轨迹的频繁序列之前通过将轨迹存储在前缀树（见另一篇短文即可）中，通过对树节点计数添加噪声、剪枝等操作，来保护轨迹数据的隐私，最后通过频繁序列挖掘算法来挖掘频繁的非连续轨迹序列。*** 实验使用正例数量和效用损失率来验证频繁序列挖掘效果
关键词：隐私保护数据发布、差分隐私、时空轨迹数据、前缀树、频繁序列

2、研究背景和意义：

一些重要概念：

轨迹数据：是一种规模大、变化快的位置信息。很多的设备或者是系统能够收集特定用户的位置数据，收集好的数据可以用于数据分析，在由某个第三方共享数据进行数据分析之前，必须匿名保护他们的隐私。
位置序列数据隐私保护的关键：如何在数据挖掘中提供基于位置信息服务，同时保护用户敏感的位置序列数据，是位置序列数据隐私保护的关键。
简单的匿名化技术（K-匿名保护法/K-匿名的扩展模型LK-匿名保护方法）对数据进行保护，对于敏感的个人数据还是有很大概率被泄露
差分隐私保护技术可以防止位置序列数据隐私泄露，差分隐私通过仅允许对数据进行聚合查询并向每个查询结果添加噪声以实现隐私保护。
交通轨迹数据作为特殊的位置序列数据，其主要是汽车及乘客在进出某站点时产生的位置记录。
使用差分隐私技术保护交通轨迹数据的隐私，向统计结果中添加噪声，发布净化的数据，从而保护数据的隐私**。攻击者无法再通过已有的信息判断某条记录信息是否是具体的某个用户，即差分隐私保护了个人的隐私。**
频繁序列模式是数据挖掘中的一项基础应用。频繁序列模式可以发现数据中频繁出现的模式，但会导致个人隐私信息泄露。
小总结改进：本文研究交通轨迹数据发布差分隐私保护算法及差分隐私保护的频繁序列模式挖掘算法。弥补了现有方法的不足，对轨迹数据的隐私保护方法及差分隐私保护的频繁序列挖掘算法有一定的完善。
匿名化技术：泛化匿名、基于抑制的匿名、空间不确定性的匿名（先了解）

差分隐私方法

树形结构差分隐私：SeqPT模型，算法模型首先将地点序列数据用前缀树的数据结构表示，前缀树将具有相同前缀的地点序列分组到同一个分支中，树的节点保存前缀子序列的计数。然后，根据设定的隐私预算分配公式，将产生的拉普拉斯噪声添加到前缀树的节点计数中；
概率分布差分隐私：在基于概率分布差分隐私保护轨迹数据研究中，上述方法可以很好的处理在小区域定义的粗粒度轨迹，但无法扩展到中等或者是大型地理跨度上面
指数机制差分隐私：对于连续型轨迹数据，有人提出了一种满足差分隐私的轨迹发布通用机制。这个机制分编码阶段和轨迹生成阶段
频繁序列模式差分隐私，

本文根据交通轨迹数据，规模大、维度高以及稀疏的特点，提出交通轨迹数据发布差分隐私保护算法及差分隐私频繁序列模式挖掘算法。

差分隐私技术相关概念

差分隐私可以用于保护交通轨迹数据隐私，假设在只相差一条数据的两个交通轨迹数据集中，通过设置隐私保护级别和不可区分性程度，使用差分隐私保护的方法分析这两个数据集的结果不会有明显的差别，即从两个数据集中获得相同结果的概率相似。 – 就没有很好的区分两个数据集，这样子就很好的保护了隐私。-- 即攻击者已经知道某些个人的数据隐私信息，也不能够确切判断某条数据一定在数据集当中，即不能以任何方式侵犯个人隐私。
交通轨迹数据发布方式：交互式和非交互式。非交互式发布方法比交互式发布方法会产生更多的噪声，更合理隐私预算分配机制将减少噪声添加。
epsilon-差分隐私，

！！！在差分隐私当中参数epsilon非常重要，隐私参数epsilon可以很有效的控制随机化算法M来实现隐私保护程度。epsilon越小表示对数据隐私保护程度越高，对真实结果加噪声干扰的程度越大。