基于图结构的图合成与差分隐私【LDPGen】

局部差分隐私下合成分散社会图的生成方法
本文提出了LDPGen,一种在本地差分隐私保护下,用于合成分散社会图的多阶段技术。LDPGen通过逐步识别和细化用户群体,收集信息以构建代表性的社交网络图,同时确保用户隐私。实验表明,LDPGen在保留图结构统计、社区发现和推荐系统效用方面优于现有方法,并且在参数选择上表现出良好的性能。

写在前面的话

这篇文章是我读了《Analyzing Subgraph Statistics from Extended Local Views with Decentralized Differential Privacy》之后找的,里面所提到的LDPGen方法被用来对比,并且这两篇文章的作者团队基本一致,所以这篇论文值得一读。(以下内容仅供参考,个人笔记比较矛盾)

摘要

问题

如何在既收集了结构信息又生成具有代表性的合成社会图的过程中完成隐私保?目前的技术的缺点在于1、过度的噪声注入2、不能保留重要的图结构3、两者兼有

对策

作者团队提出LDPGen,一种新的多阶段技术。每个用户都有自己的直接连接,看似连接的是个体,实际上连接的是整个网络中的不同分区(把个体看成中心点)。每次用户报告信息时,LDPGen都会小心地注入噪声,以确保本地差异隐私。在这个过程中推导出最优参数,以将结构相似的用户聚类在一起。一旦获得了良好的用户聚类,LDPGen利用现有的社会图生成模型构建一个合成的社会图。

实验

数据集

FaceBook:是一个无向社交图表,由4039个节点(即用户)和88234条边(脸书上的连接)组成,它们是使用脸书应用程序从调查参与者那里收集的。
Enron:是一个无向电子邮件图,由36,692个节点(即安然公司的电子邮件帐户)组成,由183,831条边(电子邮件)连接。
Last.fm:同时包含一个社交图和一个偏好图。该社交图由1892个用户节点和12717条代表朋友关系的无向边组成。偏好图包含相同的一组用户节点,以及17,632个项目节点,每个节点对应一首歌曲。偏好图中的每条边都连接着用户和歌曲,其权重对应于用户听歌曲的次数。总共有92198条这样的用户定向歌曲边缘。
Flixster:还包含一个社交图和一个偏好图,类似于Last.fm。经过一些预处理(如下解释),社交图包含137,372个用户节点,由1,269,076条无向边连接,偏好图包含同一组用户、48,756个项目节点和超过700万条定向用户到项目的边。在这里,每个项目节点代表一个电影,每个用户到项目的边缘对应于对应用户的电影评级,与一个权重相关联,即在[0,5]范围内的评级。

指标

社会图统计数据
社区发现
社会推荐

介绍

随着图分析的进步,通过挖掘一个包含人际关系和互动信息的社会图关系,可以获得许多有价值的信息。然而,这些信息可能是敏感和私人的,例如,并不是每个人都愿意向陌生人发布她的联系名单。考虑一种情况,有一方拥有整个社交网络数据,在某些隐私保证下发布图形数据或分析结果,如差异隐私。如果图是分散的,这个问题就更具挑战性了,这意味着没有一方可以访问整个图。这种情况发生在物理世界中许多敏感的社会图表上。例如,考虑分布式社交网络,例如,Synereo。显然,对于这样的图(i)每个人都有一个局部视图(例如,那些与自己有直接关系的视图),(ii)不受约束的搜集整个图的信息是不可能的。事实上,即使是不那么敏感的关系,如面对面的互动和电话联系,收集一个去中心化的社交图表也很困难,因为人们倾向于不愿透露私人关系。此外,当拥有整个图表的一方(电话/电子邮件服务提供商)不与试图分析数据的研究人员合作时,社交图表(例如,电话呼叫网络或电子邮件通信)是有效地分散的。在这些情况下,现有的隐私保存图发布和分析的解决方案不适用,因为首先就不能收集数据。(整个图的信息你弄不到,或者说不能不受约束地得到)
同时,显然有价值的知识可以通过分析去中心化的社交图来提取,而这些知识可能通过分析在线社交网络并不容易获得。例如,现实世界中的关系(例如,我们出去玩的朋友)可能与网上的关系(例如,我们聊天的关系),社区(例如,父母家人和游戏粉丝俱乐部)也非常不同,单纯分析社交网络去获得比较片面。为了获得分散化社交图的知识,必须收集具有强大的隐私保障的敏感本地视图。作者团队研究的重点是在本地差异隐私下,从一个真实的、分散的局部图生成一个合成社交图。本地差分隐私是一个强大的隐私标准,已在谷歌Chrome和AppleiOS等著名系统中使用。这样的合成图使数据科学家能够进行有意义的分析,同时保护相关参与者和数据收集者的隐私。这项研究的一个主要挑战是,最先进的本地差异隐私研究仅限于收集简单的、统计信息,如计数、直方图和重击球者。在我们的问题中,需要收集一个包含详细的边级别信息的大规模图。以如此细的粒度(例如,邻居列表)收集数据需要大量的噪声注入,以满足本地差异隐私,这可能会使图过于扭曲而没用。另一方面,如果我们只收集图的统计数据(例如,节点度),并只从这些统计数据生成一个合成图(例如,使用BTER)生成,得到的合成图可能不会保留原始图的重要属性,除了生成它的统计属性。(两个问题,其一是敏感度大会发生大量噪声注入从而影响图的效用,其二是只从统计数据合成图可能不会保留原始图的重要属性)
在本文中,我们提出了一种新的LDPGen,一种新的多阶段生成局部差异隐私下合成分散社会图。一个关键的想法是,LDPGen通过在局部差异隐私下逐步识别和细化连接节点的集群来捕获原始分散图的结构。为此,LDPGen迭代地将节点划分为组,在本地差异隐私下收集关于节点到组连接的信息,并根据这些信息对节点进行聚类。在获得这样的节点集群后,LDPGen应用一个图生成模型,利用这些集群生成一个具有代表性的合成社会图。此外,作者团队还描述了优化LDPGen关键参数的技术,以提高生成的合成社会图的效用。(LDPGen的主要思想就是找节点连接的信息群,再聚类,不断迭代,说白了就是聚类)

总结

1、定义和解决在本地差异隐私下的分散社会图的合成数据生成问题。
2、描述和分析现有的本地差分隐私和合成图生成技术的基线方法。
3、LDPGen,一种新的和有效的多阶段合成分散社会图生成方法,并描述了优化关键参数的方法。
4、我们使用几个真实的数据集和用例进行了全面的实验研究,结果表明LDPGen能够生成高实用的合成图。

背景

边差分隐私:边变化后区分不出来
点差分隐私:点变化后区分不出来i(点变化会导致相应的边发生变化)
文中关于图的表示用的邻接表
在这里插入图片描述
对于点的差分隐私就是把点隐藏起来,此时的图变化比边的差分隐私大。由此可见,点LDP能比边LDP提供更加强大的隐私保护,并且点LDP能应用进边LDP。

基线方法

随机响应

随机邻居列表(RNL),直接应用随机响应从用户中收集邻居列表。具体来说,在RNL中,给定一个隐私预算ϵ,每个用户以概率p=1/(1+eϵ)翻转其邻居列表中的每一位,并将扰动的邻居列表发送给数据管理员。然后将所有用户的噪声邻居列表组合在一起,形成一个合成的社交图。
在这里插入图片描述
其实就是普通的差分隐私公式,只是数据变成了邻接表。
优点:保护了隐私
缺点:合成的图更紧了,一般社会网络都是比较稀疏的,因为有hub users这样的连接很多人的情况。但是这种情况毕竟是少数,但是差分隐私会考虑进去,使得最终的合成图过于紧密了。

基于度的图像合成方法

在社会计算文献中,有许多现有的合成社会图生成算法。通常,这种算法以节点度等一些图的统计信息作为输入,并基于社会图模型生成一个合成图。换句话说,该算法以图模型的形式引入了关于社会图的先验知识,并将这些知识以适应输入图的高级结构属性。基于度的图生成(DGG)的思想是将这样的社会图生成模块应用到我们的问题中。
请注意,并不是所有的合成社会图生成算法都可以应用于我们的问题。原因是在我们的设置中,每个用户只能以邻居列表的形式拥有有限的图形本地视图。另一方面,一些图生成算法需要整个图的全局信息,例如克罗内克图模型中邻接矩阵的子矩阵;因此,这种算法不能在DGG中使用。我们的DGG实现是基于BTER的一个改编版本,如下所述。
使用DGG,每个用户计算她的节点度,扰乱ϵ-edge差异隐私下的度(例如,使用拉普拉斯机制),并将产生的噪声度发送给数据管理员。后者从所有用户那里收集这种扰动度,并运行BTER算法来生成一个合成图。具体来说,BTER首先根据节点集群的程度形成节点集群。特别是,具有相似程度的节点被聚集在一起。集群的大小也取决于其中节点的程度:节点的程度越大,集群的大小就越大。之后,对于每个集群,BTER生成随机的集群内边,这些边的数量取决于集群中的节点度和一个连接参数,由于缺乏全局图统计信息,该参数在DGG中被设置为默认值。最后,BTER根据每个节点的剩余度和每个集群的大小生成集群间的边。
DGG显然满足了我们的隐私要求,因为每个用户只将她的扰动程度发送给管理员,而管理员在ϵ-edge局部差异隐私下是随机化的。同时,对于相当大的ϵ值,扰动度预计将接近其真实值,因为注入拉普拉斯机制的噪声的方差为1/ϵ2。因此,用DGG生成的合成图可以准确地捕获节点度。但是,由于DGG只收集节点度,因此它丢失了底层图的所有其他信息。例如,两个度相似但在原始图中相距很远的用户可以被放置在合成图中的同一个集群中。此外,DGG通常无法捕捉到除节点度之外的图结构的其他方面。(总结来说就是两点,其一不是所有的图生成技术都可以基于邻接表的形式实现,其二就算实现了也会丢失其他图结构的重要信息)

对比

1、RNL收集细粒度信息(即邻居列表),并承担满足局部差分隐私所需的重扰动的代价。
2、DGG只准确地收集粗粒度的统计数据(即节点度),因为它们只需要少量的噪声来满足局部差异隐私,但它也会丢失底层图的重要细节。
3、DGG带来了关于社会图表的先验知识,而RNL则没有。
上述观察结果表明,需要在为满足差异隐私而增加的噪声和由于以较粗的粒度收集信息而造成的信息损失之间取得平衡。一个棘手的问题是,这种平衡本身是依赖于数据的,因此,可能会揭示私人信息。下面描述的所提出的LDPGen方法在边缘局部隐私约束下迭代地找到这种平衡。此外,与DGG类似,它利用社会图的先验知识来增强合成图。

LDPGen

一般框架

思路

把一整个图分几个不相交的部分,考虑每个节点v的度向量。这个度向量就是看v的邻居属于那个部分,其中度向量的分量就是这里面的邻居数量。
在这里插入图片描述

上面说得还挺清楚的,也举例子说明了我就不翻译了。事实上方法RNL和DGG都可以被视为上述一般框架的极端情况。特别是,当每个分区恰好包含一个用户时,RNL位

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

粥粥粥少女的拧发条鸟

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值