Data publishing——JTree

Rui C , Qian X , Yu Z , et al. Differentially Private High-Dimensional Data Publication via Sampling-Based Inference[C]// the 21th ACM SIGKDD International Conference. ACM, 2015.

​ 思路是:利用高维数据属性间的依赖关系构建属性依赖图(a dependency graph)并转换为联合树,用联合树发掘低维属性构成的团和分割顶点的边缘分布,进而推理出来联合分布。

1.依赖图和联合树

​ ●依赖图本质上是一个马尔可夫网络,节点表示数据集中的属性,边对应于属性之间的依赖关系。

​ ●依赖图转换为联合树可以分为两步:①三角化:使任两个不连续的顶点之间都有一条边;②依据属性下标顺序进行顶点消除,得到联合树。
请添加图片描述

​ 令Ci 为联合树上的一个clique,Sij = Ci ∩ Cj 是clique Ci和clique Cj之间的 separator。联合分布可以由下面的式子计算:
请添加图片描述

2.具体方法

具体方法分为四步

​ ①Build the dependency graph:在基于抽样的测试框架(a sampling-based testing framework)下学习成对属性的相关性,从该框架中生成依赖图。

sampling-based testing framework利用DP的sampling性质(N. Li, W. H. Qardaji, and D. Su. On sampling,

anonymization, and difffferential privacy or, k-anonymization meets difffferentail privacy. In ASIACCS, 2012.):
请添加图片描述
请添加图片描述
存在的疑问:

1.只是抽取D中的一部分吗?如果只是一部分,怎么得到全部属性的依赖图?是不需要全部属性吗?那其他属性怎么办?
2.Lap(2△I/εa)的2怎么来的?看论文证明部分是:本质上输出为一个0-1向量 v,vi=0和vi=1的情况分别都有e^(εa/2),合起来就得到了 e ^εa。不知道其中缘由。

●求β(β=ns/|D|,其中ns为抽样大小):确定一个合适的ns即可就求出β。
请添加图片描述

●阈值θkl:
请添加图片描述

其中,σ是一个由表示所需的依赖性级别的φc值Cramer’s V φc,例如,φc=0.2代表弱依赖性)控制的参数。

​ ②Form attribute clusters:将JTree算法应用于依赖图,生成clique集,然后,把一些clique组合起来,得到一组属性簇。
请添加图片描述

​ ③Generate noisy marginals:给定第②步得到的聚类,使用拉普拉斯机制生成它们相应的噪声边际表。

separator的噪声边缘不需要计算,可以从cliques中推导得出。需要注意的是:对于任何separator Sij=Ci∩Cj,要保证由Ci构造的Sij的噪声边缘与由Cj构造的噪声边缘相同,从而获得一致的推理。

​ ④Produce a synthetic dataset:利用联合树和边际分布表,可以计算出联合分布。
请添加图片描述

​ 首先从联合树中随机选择一个初始clique,并从其边缘分布中抽取里面的属性,不断地抽取与已经被完全抽取的clique相邻(若两个cliques共享一个separator,它们相邻)的clique中的属性。当所有属性都被抽取出来,终止这个过程。

疑问如果前面生成依赖图的时候是抽样一部分属性,那么联合树应该也不会包含所有属性,如何抽取到所有属性呢?这个所有是针对联合树中的吗?那生成依赖图时没有没抽样的属性应该怎么办?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值