【数据应用案例】关系数据的隐私保护

案例来源:@关会华 阿里技术

案例地址:https://mp.weixin.qq.com/s/4Eqh4p0j3cDj_0M4VAG-aA

 

0. 背景:

    1)关系数据描述的是实体与实体之间的联系,如人与人之间的交际关系、企业与企业之间的关联交易关系等。通过关系数据可以生成一张大网,也成为网络数据或者图数据

    2)关系数据的研究包括子群识别、信息传播、欺诈识别等

    3)但关系数据也存在着泄露用户隐私的风险,即使用户的属性数据进行了隐私处理,关系数据也可能让攻击者定位到具体的用户。(如攻击者知道A用户交际广泛,与BCD交集紧密,疏远EF,在网络图中就有机会定位到A用户)

 

1. 关系数据隐私保护难点

    1)关系数据结构特征多,包括各类度数分布、最短路径分布、中心性分布等,都可以成为进攻的切入点

    2)关系数据中节点和边都有大量的属性数据,给攻击者更多机会去识别用户在现实生活中的身份

 

2. 本文目标:

    1)对于关系数据中较重要的几个结构特征进行隐私保护

    2)选择的结构特征:

        a. 点度中心度:和节点关联的边的度数

        b. 中心指纹:选择若干个中心节点,普通节点和各中心节点的最小路径组成的向量就是中心指纹(如图中c)

        c. 子图:指节点集和边集分别是某一图的节点集的子集和边集的子集的图(如图中b是a的子图)

    3)隐私保护目标:k-匿名。即将数据通过一定方式(如“188****0053”)将数据划分成若干个等价类,每个等价类至少包含k条数据

 

3. 隐私保护方法:

    1)保持节点不变,通过增加或减少边的方式进行隐私保护。通过这种方法尽可能保持原有数据的质量。

    2)对于具体某个等价类A的保护方法:

        a. 为当前等价类A均增加边,整体转移到另一个等价类中。该等价类不存在,就不存在隐私泄露风险

        b. 为其它等价类增加边,转移到当前等价类A中,提高了当前等价类A的k匿名程度,降低了隐私泄露风险

对于上述两种方法,以“边增加数量”作为代价函数,选择代价最小的一种方法

 

4. 实践 - GraphProtector:

    1)数据导入

    2)优先级判定:

        a. 锁定一部分重要节点(如核心人物),不对其进行边的修改

        b. 排序节点优先级,优先对高优先级节点进行隐私保护

    3)评估指标选择:选择关注的实用性指标,数据处理前后会计算这些指标的变化,以此评估数据质量是否受到影响

    4)隐私保护处理:提供多种隐私保护器,每种隐私保护器仅针对一种结构特征进行隐私保护

        a. 度数保护器:筛选出度数中样本数小于k的,进行隐私保护

        b. 中心指纹保护器:找到中心指纹等价类中样本数小于k的,进行隐私保护

        c. 子图保护器:找到子图等价类中样本数小于k的,进行隐私保护

    5)数据导出

 

相关阅读:

1. 隐私保护与PATE方法 https://blog.csdn.net/u013382288/article/details/81979105

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
对于建立一个数据分析系统的学习线路图,可以考虑以下步骤: 1. 学习基础数据分析概念:了解数据分析的基本概念、方法和技术,包括数据收集、清洗、转换、可视化和解释。 2. 学习统计学知识:熟悉统计学基本概念,例如概率、假设检验、回归分析等,这些知识对于数据分析至关重要。 3. 学习数据收集和清洗:了解不同类型的数据收集方法,例如问卷调查、日志记录、传感器数据等,并学习如何对数据进行清洗和预处理,以确保数据质量。 4. 学习数据分析工具和编程语言:掌握常用的数据分析工具和编程语言,例如Python、R、SQL等。这些工具可以帮助你进行数据处理、可视化和建模。 5. 学习数据可视化技术:了解如何使用图表、图形和仪表板等工具将数据可视化,以便更好地理解和传达分析结果。 6. 学习机器学习和预测建模:了解机器学习的基本原理和常见算法,例如线性回归、决策树、随机森林等。这些技术可以帮助你进行预测建模和数据驱动决策。 7. 学习数据仓库和数据挖掘技术:了解数据仓库的概念和设计原则,学习如何使用数据挖掘技术从大规模数据集中发现有用的信息和模式。 8. 学习数据隐私和安全:了解数据隐私和安全的基本原则,学习如何处理敏感数据并保护用户隐私。 9. 学习实践案例和项目:通过实践案例和项目来应用所学知识,例如分析真实世界的数据集或解决实际业务问题。这将帮助你巩固理论知识并提升实际应用能力。 10. 持续学习和跟进最新趋势:数据分析领域不断发展,新技术和方法层出不穷。因此,持续学习和跟进最新趋势是建立一个成功的数据分析系统的关键。 以上是一个大致的学习线路图,你可以根据自己的兴趣和实际需求进行调整和深入学习。祝你学习顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值