交通轨迹数据发布差分隐私保护算法研究

最新推荐文章于 2023-04-25 16:28:41 发布

来杯黑美式

最新推荐文章于 2023-04-25 16:28:41 发布

阅读量2.6k

点赞数 3

分类专栏：差分隐私文章标签：算法大数据

本文链接：https://blog.csdn.net/A13526_/article/details/121290240

版权

差分隐私专栏收录该内容

13 篇文章

订阅专栏

交通轨迹数据发布差分隐私保护算法研究

前面都是讲述的是一些基础知识

算法研究：
算法包含三个模块：初始化模块、噪声前缀树构建模块、轨迹数据集合成模块。

该论文提出的前缀树取消了每一子层的分类树，节省了隐私预算，减少了噪声的添加
算法的隐私预算分配机制考虑了父节点和子节点计数值之间存在的规律，设计了逐层递增的隐私预算分配方式，提高了算法输出的净化后的轨迹序列数据集可用性
提出一种时空维度缩减方法，依据地点之间的最短可达时间矩阵，在不消耗任何隐私预算的情况下，缩减了地点和时间组合的维度，降低了维度爆炸的概率，改善了算法的运行时间

算法框架
在这里插入图片描述
轨迹前缀树的定义：

轨迹前缀树：

文章中的符号描述：

本文研究的轨迹中同时包含时间和地点信息，轨迹数据集具有维度大和稀疏的特点。

之前在设计噪声前缀树的时候，在树的每一子层建立分类树，消耗了大量的隐私预算，影响了输出净化的离散轨迹数据集的可用性。分类树有助于过滤空节点，但是它会耗费不必要的隐私预算，导致前缀树节点实际获取的隐私预算很少，（隐私预算越少，添加的噪声就越大，相应的隐私保护程度也就越大）使得添加到节点技数中的噪声过大，影响算法输出结果。 – 作为改进，本文中取消了分类树，隐私预算epsilon可以全部用于前缀树节点当中。

算法的框架流程：
在这里插入图片描述

隐私预算分配机制

并行机制：不同的数据集不同的查询函数。对于随机算法，整体满足max(ε) - 差分隐私
总隐私预算ε在前缀树中逐层节点进行分配，以构造满足差分隐私定义的噪声前缀树。由于每个子树中的轨迹是不相交（互不相交的数据集）的，满足了差分隐私定义的并行组合特性，所以树中同层的节点共享相同的隐私预算。
在这里插入图片描述

时空维度缩减方法

对比于之前的研究：为了满足ε - 差分隐私保护，在前缀树中构建每个节点的子层时， 会计算所有可能的地点时间对，这种穷举计算会影响算法的效率。当地点和时间域维度增加，随机组合的数量变得很大吗，算法的效率必定会降低。
本节提出了一组规则来减少地点和时间维度 – 时空维度缩减方法
在这里插入图片描述
算法实现

算法 3 - 1

原始轨迹数据集 D 被依次读取用于构建一棵指定高度为h 的轨迹前缀树 PT ，然后 将随机噪声逐层迭代地添加到前缀树 PT 的节点中，以自顶向下的方式构建差分隐私前缀树。在最后一步，通过遍历噪声前缀树，输出净化后的轨迹数据集 D’。

上面的原理可能晦涩难懂，用一个形象的例子来理解：
在这里插入图片描述
构建算法模型的整体流程：

HandleSubTree函数：实现从每个父节点依次向下建立孩子节点的过程。当处理前缀树的子层时，依据分配的隐私预算，拉普拉斯噪声被添加到该层节点的计数当中。如果噪声前缀树节点的噪声计数大于或等于阈值（是否保留节点主要是和阈值来进行对比，那么保留该节点。当处理完所有的节点，如果孩子的节点的噪声计数之和小于父节点的噪声计数，那么使用时空维度缩减方法，地点时间对将被随机地、合理地从地点域、时间域中选择。新选择的地点时间对作为当前分支的候选孩子节点，其节点计数值在 0 的基础上添加随机噪声，如果噪声计数满足阈值件，当前候选节点被添加到孩子节点集合中。新选择的候选节点，（候选节点初始值为0，初始记数也是0）初始计数为 0，称为“空节点”。如果选择“空节点”，则将噪声计数累加到求和输出变量 sum中，变量 sum 用于确定何时停止生长候选孩子点。当变量 sum大于等于父节点的噪声计数，将停止生长孩子节点。（孩子总的计数之和大于父节点的时候肯定是需要结束的）

HandleSubTree函数执行过程：对父节点下面的孩子节点进行相应操作的流程图
在这里插入图片描述
restricted _ LocDom 函数：就是用到于上面的算法 3-2 ，其是时空维度缩减方法的实现。

算法分析：①建树的效率、②差分隐私预算定量分析（**）、③算法复杂度分析

①建树的效率
对比于他人的算法模型，师兄改变了隐私预算的分配机制。

Chen 等人[21]提出的算法模型 SeqPT 以及 Khalil 等人[25]提出的 SafePath 模型，他们的算法模型，依据前缀树的特性，同一层的每个节点共享隐私预算，而不考虑每层节点计数的大小。但是随着树的高度越大，最后一层节点的计数值越小，因此相同的隐私预算对该层节点的计数有很大影响。基于这个原因，本章算法使用递增的、可变的隐私预算和阈值分配方式。
在这里插入图片描述
分析本章算法中选择空间点的概率：

差分隐私预算定量分析：

算法复杂度分析：

实验验证：上面是一顿分析猛如虎，下面需要相关真实实验来验证，包括评估算法的效率和可扩展性。以及评估用于计数查询的净化后的轨迹数据的可用性。轨迹数据
在这里插入图片描述

对表 3 - 2 数据集进行一系列分析：
Dataset2-4 是来自同一人群的较大数据集。为了全面评估本章的算法，数据集2-4的轨迹数量| D |范围从772606到845727，时间域大小分别为48,64和80，max | tr | 范围为 16 到 20。
在这里插入图片描述
提出一个算法以后，最关键的一点就是：提出的算法对比与前一个算法而言，有什么提高的地方，有一些参数比如说时、空间复杂度或者是平均相对误差等，对比于原先算法有没有改进。

数据可用性分析
在这里插入图片描述

下面对结果来进行分析：上面四幅图都是显示了在不同的前缀树高度h当中，计数查询的平均相对误差的实验结果。

接着来继续进行比较，不同隐私预算下的平均相对误差情况，隐私预算的范围是 0.5 - 1.5, X轴表示隐私预算的大小
在这里插入图片描述
随着数据集大小的增加，平均相对误差也会增加。

时间效率分析

本章提出的算法效率比较好，即使在最大的数据集4中，总运行时间仍然是小于100s。

算法对比分析：和原先的一些模型进行对比分析
在这里插入图片描述
上面四个图显示的运行效率方面的内容，显示了数据集1 - 4下的运行时间对比。

通过上面的一系列参数的比较之下，在相同的隐私预算ε和树高h 下，在大多数情况中，特别是在数据集和域值大的条件下，算法显示出更好的运行效率和净化后数据可用性。
在这里插入图片描述
差分隐私保护的频繁序列模式
差分隐私保护频繁轨迹序列挖掘算法基于序列前缀树结构，相比于SeqPT[21]和 Ngram 算法[22]，提出的算法主要贡献为，在构建噪声前缀树过程设计了隐私预算分配机制及一致性约束处理方法，提高算法挖掘结果质量。算法的整体框架主要分为初始模块、噪声前缀树构建模块、轨迹数据集合成模块及频繁序列模式挖掘模块。

算法框架流程图
在这里插入图片描述
隐私预算分配机制

！！！为了满足ε - 差分隐私保护，在构建前缀树过程中必须有效地分配隐私预算。在噪声前缀树中，以逐层递增的方式分配隐私预算，第i层的隐私预算为：

在建立该层所对应孩子节点时，所构建的地点分类树也会消耗隐私预算，区别于上述分配，分类树每层隐私预算按平均分配的方式
在这里插入图片描述

一致性约束处理：目的就是为了保证父节点的计数值大于孩子节点的计数值。因为添加噪声通常是在节点计数值当中添加拉普拉斯噪声，这样一来就容易出现前缀树当中孩子节点的计数值之和大于父节点计数
导致：数据不一致的现象，严重影响发布数据的可用性。
在这里插入图片描述

频繁序列模式挖掘

本章的算法是先从长度为1的子序列开始挖掘轨迹序列模式，然后依据输入的原始轨迹序列依次挖掘长度为2的频繁序列，到挖掘指定长度的序列为止。

算法实现流程
在这里插入图片描述

生成噪声前缀树子层节点的详细步骤：

算法分析
差分隐私预算定量分析

算法复杂度分析

在这里插入图片描述

使用正例数量来评估算法，很明显在相同的条件下，本章提出的算法明显要优于其他两个算法。

上面是不同隐私预算下的结果，下面是不同树高下的实验结果：
可以看到的是，想要的结果和预期的结果都是一样的，
在这里插入图片描述
效用损失率分析

本章小节

总结与展望

存在的不足以及以后可以往哪些方面进行探索：

未来的工作可以确定最优参数，包括树高和阈值和隐私预算函数的参数。此外可以使用其他数据结构，而不是前缀树，如 R-树，进一步探讨从而提高算法的性能，以更好地扩展交通轨迹数据的隐私保护。
在差分隐私频繁轨迹序列模式算法研究中，如何使用差分隐私结合其他频繁模式挖掘算法，如 PFS2算法，来保证挖掘结果高效的同时提高挖掘算法的效率也是值得进一步探索的方向。
轨迹数据的实时性分析可以展示车流量、人流量实时变化情况，如何设计一种交互式的满足差分隐私轨迹数据保护框架，同样值得未来的研究。