样本数据去标识化技术

本文介绍了国家标准中关于个人信息安全的要求,着重讲解了在金融行业中使用联邦学习时如何对包含个人信息的样本数据进行去标识化处理,涉及直接标识符、准标识符的概念,以及常用的去标识化技术如统计技术、密码技术、假名化等。强调了去标识化后数据应达到的个人信息标识度分级标准。
摘要由CSDN通过智能技术生成

国家标准《信息安全技术——个人信息安全规范》中规定,收集个人信息后,个人信息控制者宜立即进行去标识化处理。在金融行业,很多服务场景的对象都是人,用联邦学习建模的样本数据很多都是个人信息。因此我们在联邦学习中用到的数据是需要去标识后的数据,即需要对数据进行去标识化(de-identification)。

去标识化的定义:

通过去标识化计算,使其在不接触额外信息的情况下,达到无法识别个人信息主体的效果。

  • 直接标识符(direct identifier):

微数据中的属性,在特定环境下可以单独识别个人信息主体。

  • 准标识符(quasi-identifier):

微数据中的属性,结合其他属性可唯一识别个人信息主体。

举个例子,身份证号、手机号等是直接标识符(direct identifier),而年龄、地址等是准标识符(quasi-identifier)。通过直接标识符,我们可以立即锁定某个人。

常用的去标识化技术: 

密码技术、假名化技术、抑制技术、泛化技术、统计技术、随机化技术、数据合成

统计技术指利用统计学方法对数据进行脱敏,主要包括数据抽样和数据聚合两种技术。它的优势是可以保持数据集的统计学特性。

密码技术指通过密码学的加密算法将数据进行加密来完成变形脱敏。采用密码技术脱敏的数据是可以还原的,当需要还原时,采用相同的算法或者对应算法输入秘钥,即可完成还原。密码技术可以细分为确定性加密和随机性加密两类。

抑制技术即对不满足隐私保护的数据项删除,不进行发布。抑制技术适用于分类数据。

假名化技术是一种使用假名替换直接标识(或其他准标识符)的去标识化技术。采用假名化技术脱敏的数据无法直接进行还原,可以建立原始数据到假名数据的映射表来实现还原。但在我国,身份证号、手机号等经常作为ID信息的原始空间是可以枚举的,攻击者往往通过彩虹表等进行暴力枚举,对假名化的结果进行反向还原。

泛化技术是一种降低数据集中所选属性粒度的去标识化技术,对数据进行更概括、抽象的描述。泛化技术在做特征处理的时候也经常用到,例如对年龄进行区间化。

随机化技术指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值,无法进行还原。

数据合成是一种以人工方式产生微数据的方法,用以表示预定义的统计数据模型。其主要运用在测试集里,由使用者随机生成一份测试的值来替代真实的值。

在金融领域,用的最多的还是泛化技术。

去标识化后应达到的效果:

  • 接标识符:

需要保持唯一性,个人信息标识度分级应达到2级

  • 准标识符:

个人信息标识度分级应达到3级

1级:能直接识别主体的数据

2级:消除直接标识符的数据

3级:重标识风险可接受数据​​​​​​​

4级:聚合数据​​​​​​​

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值