数据匿名篇

原始####  多方数据安全
的联合 AI建模
数据驱动 AI建模,一般来说,模型效果与训练数据的特征维度与样本规模密切相关。然而,在实 际多数场景中,单家企业拥有的数据难以支撑大规模的 AI建模。那么,多方联合 AI建模,破除“数据 孤岛”实现数据的融合与共享,通过分布式
的大规模数据训练升模型效果,这种需求在企业间共享场
景日益增多。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gHnq5oiW-1665143624918)(http://public.host.github5.com/imgs/img/pdf431.pdf.013.png)] 合规条款

同 5.1.2 节的合规条款。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C2uISWn9-1665143624920)(http://public.host.github5.com/imgs/img/pdf431.pdf.014.png)] 问题挑战

传统集中式
的机器学习,可通过差分隐私等技术可实现一方的隐私保护,然而无法满足多方机器学 习以及隐私保护的需求;分布式的机器学习主要用于解决数据的存储以及计算瓶颈,但无法保证多方输 入数据的安全与隐私问题。总的来说,前面的两种机器学习范式已经无法应对多方联合 AI建模与隐私 保护双重需求带来的挑战。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bo9WBR4e-1665143624921)(http://public.host.github5.com/imgs/img/pdf431.pdf.015.png)] 应对技术: 联邦学习(参见 5.5 节)

数据匿名

数据匿名 (Data Anonymization),是对个人信息
进行泛化和屏蔽等处理,使得对应的个人信息 主体无法被识别,达到“匿名”的效果。目前该技术的主要实现技术包括 K- 匿名 (K-anonymity)[23]、 L- 多样性 (L-diversity)[24] 和 T- 近似性 (T-closeness)[25] 模型。
其中,K- 匿名是最早研究的匿名技术,它可以保证数据表中至少有 K条记录泛化为相同的取值。下 面通过例子进行原理的阐述:假设为了研究和数据挖掘目的,医院有一份医疗数据集拟对外公开发布,为保护患者隐私,需对患者的身份进行保护,那么可应用 K- 匿名技术。如图 5-1 所示,它对原始医疗 数据集进行 K- 匿名处理 (参数 K=2),对出生年月、性别和邮编进行泛化和屏蔽处理等操作,使得处 理后的数据集除敏感属性外,相同的记录形成的集合(一般称为等价组)至少包括 2 项记录。那么这样 处理保证了一定的数据可用性,同时也保护了患者的隐私:即使攻击者有背景知识(例如了解朋友在这 个数据集中,且拥有朋友的出生年月、性别和邮编详细的属性信息),也无法唯一地确定到底那一条记 录属于朋友的诊断记录。

由于 K- 匿名不对敏感属性进行约束,当等价组的敏感属性取值相同时,仍然存在隐私风险。如图 5-1 的数据表索引为 3、4,攻击者即使无法识别出这两条记录具体那一条属于被攻击对象,但由于敏 感属性完全相同,因此可以直接推断出患病情况,从而同样造成隐私泄露。后续学者出了 L- 多样性 (L-diversity)和 T- 近似性(T-closeness)模型。

🅙 L- 多样性模型: 它不仅可以保证形成的等价组至少包含 K 个记录,同样通过修改敏感属性或者

添加伪造记录,使得任意等价组的敏感属性至少包含 L 个不同的值。

🅙 T- 近似性模型: 它不仅可以保证形成的等价组至少包含 K 个记录,同时通过修改敏感属性或者

添加伪造记录,使得任意的等价组的敏感属性的分布与全局的敏感属性分布之间的距离度量值 小于参数 T。

总的来说,各个模型的隐私保护程度效果,T- 近似性优于 L- 多样性,L- 多样性优于 K- 匿名;然而 对于对于数据可用性,却正好相反。在实际应用场景中,需根据两者具体需求进行技术选型。匿名模型 的算法实现是数据匿名技术的关键问题。研究表明,实现最优的匿名化⸺以最小数据缺损代价达到匿 名条件(如 K- 匿名的参数 K),是一个 NP 难题。比较幸运的是,经过研究和发展目前已经形成一些有效的逼近算法:

🅙 Datafl 算法: 单维泛化算法。其核心思想是对给定数据表中非敏感属性的列中取值最多的那个 属性按预先给定的泛化树进行泛化,直到匿名化数据表满足 K- 匿名的约束。

🅙 Mondrian算法: 多维泛化算法。其核心思想是将所有非敏感属性其他列的类别看成是一样的,

即只有一个等价组,然后自上而下,启发式选择非敏感属性列的某一列为根据进行等价组的递 归划分,直到满足条件无法划分。

🅙 基于聚类的算法: 先对数据集的非敏感属性维度进行特征抽取和编码,然后使用 K-means 等算

法进行聚类,并使得每一类的结果至少包括 K 个点,接着将点映射到原始数据集进行等价组的 划分,最后对每一个等价组平均或中值泛化处理。

在工业界应用中,数据匿名技术有丰富开源项目:著名的包括 ARX、UTD Anonymization Toolbox、Cornell Anonymization Toolkit, Amnesia,其中 ARX最为成熟,支持 K- 匿名、L- 多样和 T- 近似模型,且供丰富的界面和 API接口,以及数据可用性与隐私风险等匿名效果评估;同时一些企业 机构将数据进行应用:Google 在云 DLP产品应用到 K- 匿名等技术降低用户数据的隐私风险;另外在

GDPR和 CCPA的驱动下,一些欧美的创新公司将匿名化技术实现产品化和场景落地,包括 Immuta、 Privitar、Anonos 和 Protegrity 等,主要集中应用在医疗和金融等隐私数据领域。传统的 K- 匿名等技术 由于泛化处理数据可用性原因,一般只能用于数据对外发布和公开场景中,然而隐私数据匿名处理后的 机器学习与关联挖掘是企业当前广泛在的需求,绿盟科技将匿名化技术 + 机器学习进行结合,研究和 出自应匿名化算法与框架,通过感知单个属性及组合对 AI分析的重要性程度,实现了“高价值数据 低匿名;低价值数据高匿名”的效果,应用框架如图 5-2 所示。

图 5-2 两方数据共享
与计算:自适应匿名化框架然而,数据匿名技术仍然存在一系列挑战性问题有待未来进一步解决,比如在高维数据集上表现 的数据可用性急剧下降问题,多个敏感属性的匿名化处理,匿名算法优化以及在大数据平台的应用等 问题。

参考资料

绿盟 2020 数据安全前沿技术研究报告文字内容

友情链接

绿盟 Weblogic WLS组件漏洞 技术分析与防护方案## 标题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值