【数据应用案例】关系数据的隐私保护

最新推荐文章于 2024-09-26 11:01:02 发布

稻蛙

最新推荐文章于 2024-09-26 11:01:02 发布

阅读量2.8k

点赞数 1

分类专栏：数据产品案例文章标签：数据案例隐私保护阿里巴巴网络数据关系数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013382288/article/details/83893491

版权

数据产品案例专栏收录该内容

76 篇文章

订阅专栏

案例来源：@关会华阿里技术

案例地址：https://mp.weixin.qq.com/s/4Eqh4p0j3cDj_0M4VAG-aA

0. 背景：

1）关系数据描述的是实体与实体之间的联系，如人与人之间的交际关系、企业与企业之间的关联交易关系等。通过关系数据可以生成一张大网，也成为网络数据或者图数据

2）关系数据的研究包括子群识别、信息传播、欺诈识别等

3）但关系数据也存在着泄露用户隐私的风险，即使用户的属性数据进行了隐私处理，关系数据也可能让攻击者定位到具体的用户。（如攻击者知道A用户交际广泛，与BCD交集紧密，疏远EF，在网络图中就有机会定位到A用户）

1. 关系数据隐私保护难点

1）关系数据结构特征多，包括各类度数分布、最短路径分布、中心性分布等，都可以成为进攻的切入点

2）关系数据中节点和边都有大量的属性数据，给攻击者更多机会去识别用户在现实生活中的身份

2. 本文目标：

1）对于关系数据中较重要的几个结构特征进行隐私保护

2）选择的结构特征：

a. 点度中心度：和节点关联的边的度数

b. 中心指纹：选择若干个中心节点，普通节点和各中心节点的最小路径组成的向量就是中心指纹（如图中c）

c. 子图：指节点集和边集分别是某一图的节点集的子集和边集的子集的图（如图中b是a的子图）

3）隐私保护目标：k-匿名。即将数据通过一定方式（如“188****0053”）将数据划分成若干个等价类，每个等价类至少包含k条数据

3. 隐私保护方法：

1）保持节点不变，通过增加或减少边的方式进行隐私保护。通过这种方法尽可能保持原有数据的质量。

2）对于具体某个等价类A的保护方法：

a. 为当前等价类A均增加边，整体转移到另一个等价类中。该等价类不存在，就不存在隐私泄露风险

b. 为其它等价类增加边，转移到当前等价类A中，提高了当前等价类A的k匿名程度，降低了隐私泄露风险

对于上述两种方法，以“边增加数量”作为代价函数，选择代价最小的一种方法

4. 实践 - GraphProtector：

1）数据导入

2）优先级判定：

a. 锁定一部分重要节点（如核心人物），不对其进行边的修改

b. 排序节点优先级，优先对高优先级节点进行隐私保护

3）评估指标选择：选择关注的实用性指标，数据处理前后会计算这些指标的变化，以此评估数据质量是否受到影响

4）隐私保护处理：提供多种隐私保护器，每种隐私保护器仅针对一种结构特征进行隐私保护

a. 度数保护器：筛选出度数中样本数小于k的，进行隐私保护

b. 中心指纹保护器：找到中心指纹等价类中样本数小于k的，进行隐私保护

c. 子图保护器：找到子图等价类中样本数小于k的，进行隐私保护

5）数据导出

相关阅读：

1. 隐私保护与PATE方法 https://blog.csdn.net/u013382288/article/details/81979105

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。