隐私保护模型之——语义匿名模型

初识语义匿名模型

1、k-anonymity(K-匿名算法)

数据发布中隐私保护对象主要是用户敏感数据与个体身份之间的对应关系。通常使用删除标识符的方式发布数据是无法真正阻止隐私泄露的,攻击者可以通过链接攻击获取个体的隐私数据。

例如机器学习中的SVM算法,可以将每一个信息作为一个维度,在大量数据的情况下,可以学习出分割函数,建立超平面,从而进行分类,将其归入某一类人里。同时在有丰富的个人信息(多维度)和大量数据作为全局信息,可以用CRF(条件随机场算法)进行行为预测。如果是针对性的,可能通过链式攻击来获取个人的敏感信息。

链式攻击是指攻击者通过对发布的数据和其他渠道获取的外部数据进行链接操作,以推理出隐私数据,从而造成隐私泄露,相当于一种个人信息维度的扩充。最简单的例子就是数据库里两张表通过主键关联,得到更多的信息。

为解决链接攻击所导致的隐私泄露问题,引入k-匿名 (k-anonymity) 方法。k-匿名通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1 条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。攻击所导致的隐私泄露。

在讲解k-匿名模型之前,首先对用户数据类型进行一个分类:

①显式标识符(ID,能够唯一地确定一条用户记录)

②准标识符(QI,能够以较高的概率结合一定的外部信息确定一条用户记录)

③敏感属性(需要保护的信息)

④非敏感属性(一般可以直接发布的信息)

接下来正式介绍k-匿名模型:

用T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。令是表T(d)在属性集合QI上的投影。表T(d)在属性集QI下满足k-匿名,当且仅当中的任意一条记录都至少重复出现k次。在II运算符下,有相同QI值的所有记录组成一个匿名组。对于一个给定的k,每一个这样的匿名组都是一个k-匿名组或者叫做一个等价类。

匿名化技术可以实现上述的k-匿名,概化抑制是最常见的两种方法。所谓的概化是指对数据进行更加概括、抽象的描述,而抑制则是指不发布某些数据项。

 

抑制,即彻底隐藏信息,如上图姓名。概化,如将中国人,韩国人统一为亚洲人,上面的生日和zip也是泛化。


k-anonymity能保证以下三点:

1.攻击者无法知道某个人是否在公开的数据中

2.给定一个人,攻击者无法确认他是否有某项敏感属性

3.攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)

 

k-匿名攻击存在着一些攻击方式:

同质化攻击:某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。

背景知识攻击:即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。

未排序匹配攻击当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。

补充数据攻击:假如公开的数据有多种类型,如果它们的k-anonymity方法不同,那么攻击者可以通过关联多种数据推测用户信息。

 

2、L-Diversity

如果对敏感属性,表中的一个等价类具有l-diversity,则等价类被认为具有l-diversity。如果表中每个等价类都有此性质,那么表就是l-diversity。还有引入了其他统计方法的 l-diversity,比如:

•基于概率的l-diversity (probabilistic l-diversity): 在一个类型中出现频率最高的值的概率不大于 1/l。

•基于的l-diversity (entropy l-diversity): 在一个类型中敏感数据分布的墒至少是 log(l)。

递归(c,l)-diversity (recursive (c, l)-diversity): 简单来说就是保证最经常出现的值的出现频率不要太高。

敏感属性的性质决定即使保证了一定概率的 diversity 也很容易泄露隐私。所以它不能抵御概率推断攻击(probabilistic inference attacks),如果在一个等价类中某个 SD 属性出现的频率比其他记录要大的话,容易让攻击者获得信息。比如对于(1/100,99/100)这种分布图,根据概率能很容易地推测到一些数据。

例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是 1%)和“艾滋病阴性”(出现概率是 99%),这两种值的敏感性不同,造成的结果也不同。

有些情况下l-diversity没有意义:比如艾滋病数据的例子中仅含有两种不同的值,保证2-diversity也是没有意义的。

l-diversity很难达成:例如,我们想在10000条数据中保证2-diversity,那么可能最多需要10000* 0.01 = 100个相同的类型。这时可能通过之前介绍的k-anonymity的方法很难达到。

偏斜性攻击(Skewness Attack):假如我们要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了diversity,但是我们泄露隐私的可能性会变大。因为l-diversity并没有考虑敏感属性的总体的分布。


L-diversity没有考虑敏感属性的语义,上表虽然将同一个等价类中的敏感数据分为了三类、但是却忽略了它们语义上其实很接近,都是有关胃的疾病。

 

3、T-Closeness

t-closeness是为了保证在相同的quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值t。也就是每组和整个数据集的敏属性分布不能太大,要尽量的小。

 

——————————————————————————————————————————————————

以上内容根据一些论文和博客总结,如有侵权请联系博主哦~继续加油吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值