论文周报《用于多属性表格数据匿名化的实用性感知可视方法》_a utility-aware visual approach for anonymizing mu-CSDN博客

本文链接：https://blog.csdn.net/m0_38068229/article/details/80666096

A Utility-aware Visual Approach for Anonymizing Multi-attribute Tabular Data
（用于多属性表格数据匿名化的实用性感知可视方法）

作者：Xumeng Wang, Jia-Kai Chou, Wei Chen, Huihua Guan, Wenlong Chen, Tianyi Lao, and Kwan-Liu Ma

期刊：IEEE Transactions on Visualization and Computer Graphics

一、简介

人们在日常生活与工作中经常会将自己的个人信息录入很多系统，当很多人的数据形成一个数据集，此时的数据便可能具有了分析、统计和预测的价值。当公司或组织通过各种业务拥有了用户的数据后，如果暴露了一些敏感信息就可能会发生隐私泄露。近几年来，大型的隐私泄露事件频频发生，有不少还出现在知名公司身上，所以现在人们对于隐私保护的需求越来越被关注。

显然，想要保护隐私必定要丢弃一些数据或者对其添加噪音，例如标识个体的数据和一些敏感数据，那么对于数据的选择就很关键，数据的丢失会影响到数据的实用性，在影响对数据的分析统计和预测。

所以，有所矛盾的两点需要用户针对具体问题进行权衡。在对敏感信息进行隐私保护的同时，需要权衡数据的实用性。该论文针对该问题提出了一个可视化分析方法，有效解决了多属性表格数据的隐私保护和实用性间的权衡问题。

二、主要工作

论文中提出的可视化分析方法允许用户交互式地解决隐私问题，同时考虑到数据实用性。作者将语义匿名模型的本质可视化为隐私暴露风险树（Privacy Exposure Risk Tree，PER-Tree）；此外，针对数据的实用性提供了一种设计称为实用性度量矩阵（Utility Preservation Degree Matrix，UPD-Matrix），为用户提供可视化反馈，体现在应用隐私保护操作时实用性的改变。
论文中用到的相关工作包括两类隐私保护模型：语义匿名模型和差分隐私模型。提出了一个包括五个主要步骤的流程：导入数据、构建隐私暴露风险树、观察UPD-Matrix和调整PER-Tree、校对实用性和导出数据。具体步骤如下：

（1）导入数据：

导入数据时，用户需要决定该属性是否应该参与分析和该属性是否为敏感属性。如下图的数据中Name属性对分析结果不构成影响，不需要参与分析；Expense属性是一个需要隐私保护的敏感属性。

（2）构建隐私暴露风险树（PER-Tree）：

PER-Tree的设计可以做到：用树的方式表达表格中的数据、通过颜色编码高亮隐私问题和通过用户交互解决隐私问题。颜色越深代表隐私暴露风险越大。数据导入以后，用户可以通过三个子步骤构建PER-Tree。

①　对每个维度进行分类或聚合，以便进一步分析或探索。

②　用户可以自由地切换要呈现在PER-Tree中的属性的顺序。将属性放置到树的较高级别减少与其相关联的边的数量。建议始终将敏感属性放在树的最底层，以避免进一步的混淆。

③　设置语义匿名模型的标准值，主要包括：K-anonymity每个等价类中数据项的数量；L-diversity每个等价类中敏感属性按值分类个数；T-closeness敏感属性各个值的分布相似度。以便检测到每个维度的隐私问题以及树的各个级别。

如图所示是构建一个PER-Tree的过程：

假设数据集有两个属性：gender和occupation，属性值分别是(男，女),(教师，学生，其他)。然后将属性顺序设置为性别->职业。

从（b）可以看出，树的顶层包含两个节点：M和F。每个顶级节点都有三个边缘链接到第二级的节点，对应三个不同的值：T，S和O。每个节点进一步分为两种类型的子节点。

一种是“Prop-node”，从其父节点继承的隐私信息，节点用灰色表示，使用透明度编码该节点的隐私暴露风险，颜色越深表示隐私暴露风险越高。

另一种是“Attr-node”，存储属性特定的隐私信息，k-anonymity用蓝色表示，L-diversity用绿色表示，t-closenese用橙色表示，三种隐私信息均用透明度编码值的大小。在图（c）中使用“老师”节点作为示例，并突出显示其相关的Prop节点和Attr节点。

（3）调整PER-Tree和观察UPD-Matrix

在构建PER-Tree之后，下一步是查看数据并进行必要的调整，以便在数据隐私和实用程序之间达到更好的平衡。

首先是调整的模型的两种操作的选择：基于语义匿名模型的聚合操作和基于差分隐私模型的添加噪音操作。

聚合操作如下图所示，将男性老师和男性学生节点进行合并，随后在PER-Tree中创建了一个新节点，男性老师或者学生（S OR T），减少了男性老师和学术隐私的暴露风险。

另一种方法是基于差分隐私模型为数据添加随机噪声，用户首先需要识别由Prop节点或ATTR节点表示的数据记录来应用不同的隐私。然后，右击感兴趣的节点，就会弹出一个菜单，让用户输入ε的值来控制噪音水平。接下来，用户可以决定向哪个属性添加噪声。在每棵树上应用隐私保护操作后，整个树的隐私信息将重新计算。UPD-矩阵也将相应更新，以反映数据聚合或单个数据值的变化。
使得数据值仍然是值而不是范围，但是这个值不是准确的原始值。此外，在添加基于隐私模型的噪声之后，属性值的分布将保留，因此实用性不会发生很大改变。

上面介绍了两种方法来解决隐私保护问题，如何选择更好的方法呢？作者设计了实用性度量矩阵来表达，即UPD-Matrix。这种视图将有助于用户监控实用性的波动，它可以在隐私保护过程中给出实时反馈，并且可以回滚操作，它与各种数据格式兼容。

UPD-Matrix由三部分组成，对角线单元格显示每个统计维度的直方图，矩阵的上三角形和下三角形分别显示原始数据和处理数据的所有对分布。
注意到UPD-Matrix中各个联合分布的视觉表达方式分为多种:使用散点图来描述原始数据的准确性，根据数据类别的不同设计了三种不同的原始数据散点图。针对合并后的数据，因为值被聚合到范围内，所以使用矩阵表示。

（4）检测实用性：

论文中设计了两种实用性度量方法：第一种是在数据聚合级别测量效用性，是通过UPD-Matrix顶部的数值对显示的，如下图所示，0.9表示原始数据的效用性，-0.09表示实用性的改变量。

使用上面这种方法表示有时不能直观反应实用性的变化，所以为用户选择的属性提供详细的实用性比较视图如下图所示。在该视图中，用户可以检查在数据级别之前和之后的数据操纵之间的属性的分布之间的差异。

（5）输出数据：

最后，作者提供了两种导出数据的方式：以可视化形式导出可视化图标或以文本数据形式导出数据。

三、总结

该论文提出了一个可视化分析方法，有效解决了多属性表格数据的隐私保护和实用性间的权衡问题。使用了语义匿名和差分隐私两种模型，综合考虑了数据的损失程度和用户的易使用性，针对不同情况选择不同的模型来合并分组或者添加噪音。此外，可视方法提供了灵活的操作，可以选择处理的模型，选择所要处理的数据以及处理数据的方式。

目前的成果在实用性的表达方式和数据维度以及数据类型的拓展等方面还具有一定的局限性，需要进一步的研究。