效用感知的可视匿名化数据方法


我们设计了一个可视化界面以及一个数据处理管道,使用户可以在交互和迭代地处理其数据中的隐私问题时评估效用损失。众所周知的和讨论过的隐私模型类型,即句法匿名性和差分隐私在不同用例场景下进行集成和比较。

引言

例如,分析一组患者的病历可能有助于提高诊断和治疗的准确性。将数据集公开提供给合作者等外部用户或供外部用户访问当然有其好处,但潜在地暴露敏感信息的风险

我们的解决方案是可视界面和隐私保护管道,使用户可以交互和迭代地解决隐私问题,同时仍然考虑数据实用程序。特别是,我们采用并合并了常用的语法匿名化模型,即k-匿名[36],l-diversity [26]和t-closeness [23],以及两个差分隐私算法[6,15],即Laplace机制[13]。指数机制[28],用于检测和处理多属性表格数据集中的隐私问题。

为了帮助用户不仅识别数据中的隐私暴露风险,而且还通过适当的技术解决这些问题,我们将这些模型的本质整合到了Privacy ExposureRisk Tree(PER-Tree)中。 PER-Tree充分发挥视觉方法的优势,进一步扩展了原始模型的处理方法。此外,我们提出了一种匹配的设计,称为效用保存度矩阵(UPD-Matrix),它向用户提供有关在应用隐私保护操作时效用如何变化的视觉反馈。

相关工作

句法匿名和差异隐私是两种在不同角度解决隐私问题的常用隐私模型。k匿名[36]是代表性的句法匿名模型之一。为了满足匿名性,每个数据记录应至少有1条其他记录,它们在准标识符字段中共享相同的一组值[9],从而形成至少大小为k的等价类。 k-匿名性的概念在用作针对身份公开的匿名化措施时很有用。但是,它没有考虑敏感属性的多样性。如果具有相同准标识符信息的个人也获得相似或什至相同的敏感属性值,则攻击者仍然能够泄露某些个人的敏感信息。然后提出了多样性[26]模型来解决这个问题。 l-diversity [26],需要使用相同等价类中的数据记录才能获得敏感属性中的不同值。t-closeness[23]是另一种旨在通过略微不同的策略扩展k-匿名性的模型。等价类中的敏感值,它旨在保持每个等价类中的敏感值分布与敏感属性的全局分布相比足够相似(小于阈值)。基于上述三种模型,还开发了许多其他语法匿名模型,例如p敏感[37]和β相似[5]。

与通常用于隐私保护数据发布的句法匿名模型不同,差分隐私模型主要用于匿名化查询响应[34]。根据差分隐私的定义,如果任何受试者的参与或缺少数据集不会显着影响输出结果,则将函数K称为差分私有。本质上,通过从适当确定的分布中选择随机噪声添加到真实的查询结果来实现差分隐私机制。

当应用句法模型时,效用被解释为显示准确/精确的预期计算结果或可以在匿名化数据之后执行数据分析算法。

在差分隐私中,大多数研究都将效用视为查询结果与其实际值之间的距离。 [2]提出了一个信息理论框架来量化信息泄漏和效用。

隐私模型

我们使用三种常见的语法匿名模型来检测隐私问题,并充当量词来指示每个等效类中的隐私暴露程度。

  • k-匿名:如果等效类至少包含k个数据记录,则它满足匿名性。相反,如果等价类包含的数据记录的数量n小于用户定义的阈值k,则将其视为隐私公开。 k-n的值表示相对于匿名的隐私暴露程度
  • l-多样性:如果等价类至少包含敏感属性的不同值,则它满足满意度l-多样性。相反,如果等价类具有的不同敏感值的数量s小于用户定义的阈值l,则将其视为隐私暴露。 l-s的值表示相对于多样性的隐私暴露程度
  • t-接近度:如果等效类的敏感属性在整个数据集中的分布接近敏感属性的分布,即两个分布之间的绝对距离小于t,则等距类满足最接近。相反,如果等效类之间的绝对距离d大于用户定义的阈值t。 d-t的值表示相对于t-j接近性的隐私暴露程度

虽然隐私问题是由上述语法匿名模型识别的,但我们也采用了在这些模型中应用的常见隐私保留操作,例如聚合或泛化

系统概述

我们系统的主要目标是帮助用户在隐私保护和数据实用性之间取得平衡。我们的目标用户是数据所有者,他们希望保持其数据的敏感信息私有,同时仍然需要与他人共享数据。

例如,公司中的高级营销经理可能需要初级数据分析师来帮助对从客户收集的数据进行分析。由于隐私问题,必须先对数据进行匿名处理,然后再交给数据分析人员。另外,管理者希望匿名过程中引入的数据失真不会使结果数据无用。

我们设计了一个5步骤的管道,如图2所示,该管道允许用户迭代和交互地实现他们在隐私和实用程序之间的理想平衡。
在这里插入图片描述

1.加载数据
加载数据集后,用户首先为数据集中的每个属性决定两件事:1)它是否应参与分析? 2)它是需要隐私保护的敏感属性吗?

2.构造隐私暴露风险树(PER-Tree)
数据加载完成后,用户可以通过三个子步骤来构建隐私暴露风险树(PER-Tree)。

  • 首先,用户可以决定如何对数据的每个维度进行分类或汇总以进行进一步的分析或探索。该系统通过在效用保存度矩阵(UPD-Matrix)的对角线上显示来自原始数据的各个维度的分布来提供帮助。用户还可以根据自己的领域知识做出决定。虽然更细粒度的聚合更有可能导致以后进行更精确的分析,但揭示隐私信息的可能性也可能增加。这是用户必须考虑的因素。
  • 接下来,用户可以自由切换要在PER-Tree中显示的属性的顺序。将属性放置到更高级别的树,减少链接到边的数量。
  • 结果,用户可以更清楚地看到该属性在哪个范围或哪个类别中承担最多的隐私问题。建议始终将敏感属性置于树的最低级别,以避免进一步的混乱。详细说明将在5.1.2节中描述。
  • 构造PER-Tree的最后一步是为语法隐私模型设置标准值,以便可以检测到树的每个维度和每个级别的隐私问题

在这里插入图片描述

3.观察和调整:构建PER-Tree之后,下一步是查看数据并进行必要的调整,以在数据隐私和实用程序之间达到更好的平衡。为此,用户可以先查看UPD矩阵以查找属性之间的相关性。用户还可以通过PER-Tree上的交互将不同的聚合应用于某些属性。更改PER-Tree中属性的聚合会导致以下影响:

  • 1)数据的模式或相关性可能会有所不同;
  • 2)隐私和实用程序可能也会发生变化。如果不需要聚合,则可以在PER树上进行的另一种可能的交互是应用差分隐私来解决某些隐私问题

我们的系统提供了“回滚”功能以撤消先前应用的操作。借助这种功能,用户可以交互和迭代地检查不同的操作如何影响隐私和实用性,从而获得灵活性和透明性,以在隐私和实用性之间寻求最理想的平衡。

4.检查效用:我们在第3.2节中介绍的度量标准是在数据汇总级别上测量效用的,有时它可能无法反映用户感兴趣的信息的确切变化。我们一次为一个用户选择的属性提供了详细的效用比较视图。在此视图中,用户可以在数据级别检查数据操作前后属性的分布之间的差异。

5.导出数据:管道的最后一步是导出生成的可视化效果和/或其底层匿名数据以供将来使用

可视化的详细信息

该系统由两个主要组件组成:PER树(图1(c))和UPD矩阵(图1b)
在这里插入图片描述
PER-Tree在数据中显示有关用户设置的隐私标准的隐私问题,并允许交互操作和匿名化基础数据

utility preservation degree matrix (UPD-Matri)

UPD矩阵表示已处理数据与原始数据之间的差异。用户可以使用图表检查匿名过程中数据更改的效用

PER-Tree(隐私暴露风险树)

帮助我们的用户识别基础数据中的隐私问题,并提供交互以解决检测到的隐私问题。

©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页