差分隐私
1.隐私信息的定义和度量。
李凤华等人提出了隐私信息的全生命周期模型, 如图 1 所示, 其中包括 9 个部分。分别为: 隐私信息产生, 隐私感知, 隐私保护, 隐私发布, 隐私信息存储, 隐私交换, 隐私分析, 隐私销毁, 隐私接收者。隐私保护所研究的问题, 主要在隐私保护, 隐私发布/存储/交换, 隐私分析这 3 个部分。
2.隐私保护的方式
1.数据失真
2.加密
3.访问控制
目前很多隐私保护技术结合其中多种技术。
3.k-匿名
1.基础概念
表1.医院病历表
name | sex | age | province | zip | disease |
---|---|---|---|---|---|
李青 | woman | 20 | 安徽 | 100870 | 肺炎 |
张宇 | woman | 20 | 安徽 | 100870 | 哮喘 |
刘然 | man | 25 | 山东 | 100831 | 肺炎 |
马方 | man | 30 | 湖南 | 436570 | 流感 |
沈思 | woman | 35 | 湖北 | 436520 | 脑溢血 |
张佳 | man | 40 | 长春 | 100120 | 脑癌 |
方雅 | woman | 45 | 北京 | 100130 | 胃炎 |
- 标识符(ID):能够唯一的确定一条用户记录,例如上图医院病历表中的病人姓名是病人的标识符。
- 准标识符():准标识符指的是那些介于标识符与非敏感属性之间的一些属性,这些属性通过与其它的数据表进行结合(链接攻击),也能够识别出病人的具体信息。在上表中姓名、省份、年龄、性别、邮编都可以看成准标识符。
- 数据发布中隐私保护对象主要是用户敏感数据与个体身份之间的对应关系,通常使用将标识符删除的方式无法阻止隐私泄露,攻击者通过连接攻击仍然大可能获取到用户的敏感信息。 - 链接攻击 :链接攻击是攻击者利用其它的外部数据信息与发布的数据信息进行链接,推断出用户的隐私信息。
- 例如现在医院为了统计市民的患病率将医院的病历表发布,同时为了保护病人的隐私,将姓名这一标识符删除。但是现在攻击者通过将医院发布的病历表与不含个体隐私信息的选民信息表链接起来时,使用链接攻击会发现名为李青的个体大概率患有肺炎,这样,病人的隐私信息就泄露了。
表2.选民信息表
name | sex | age | province | zip | party |
---|---|---|---|---|---|
李青 | woman | 21 | 安徽 | 100870 | 党员 |
张发 | woman | 22 | 安徽 | 100870 | 党员 |
刘家 | man | 25 | 山东 | 100831 | 团员 |
将方 | woman | 32 | 湖南 | 436570 | 团员 |
沈思 | woman | 35 | 湖北 | 436520 | 群众 |
张佳 | man | 45 | 长春 | 100120 | 党员 |
李雅 | woman | 48 | 北京 | 100130 | 党员 |
2.k-匿名算法.
- 为解决链接攻击所导致的隐私泄露问题,引入k-匿名 (k-anonymity) 方法。k-匿名通过概括(对数据进行更加概括、抽象的描述)和隐匿(不发布某些数据项)技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1 条记录具有完全相同的准标识符属性值(具有相同准标识符的记录构成一个等价类),从而减少链接攻击所导致的隐私泄露。*
1.隐匿:将病人姓名这一标识符删去
sex | age | province | zip | disease |
---|---|---|---|---|
woman | 21 | 安徽 | 100870 | 肺炎 |
woman | 22 | 安徽 | 100870 | 哮喘 |
man | 25 | 山东 | 100831 | 肺炎 |
woman | 32 | 湖南 | 436570 | 流感 |
woman | 35 | 湖北 | 436520 | 脑溢血 |
man | 45 | 长春 | 100120 | 脑癌 |
woman | 48 | 北京 | 100130 | 胃炎 |
2.概括/泛化技术:
sex | age | zip | disease |
---|---|---|---|
woman | (20,30】 | 1008** | 肺炎 |
woman | (20,30】 | 1008** | 肺炎 |
woman | (30,40】 | 4365** | 流感 |
woman | (30,40】 | 4365** | 脑溢血 |
** | (40,50】 | 1001** | 脑癌 |
** | (40,50】 | 1001** | 胃炎 |
上表满足2-匿名,上表含有3个等价类。
3.k-匿名能保证以下三点:
- 攻击者无法知道某个人的身份
- 给定一个人,攻击者无法确认他是否有某项敏感属性
- 攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)
4.k-匿名的缺点:
- 同质化攻击:某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。例如:上表中第一行与第二行的敏感属性相同,即当攻击者知道表中有一病人的zip为1008**,age为(20,30】,就可以确定他有肺炎。
- 背景知识攻击:即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。例如:上表中第二个等价类中的敏感属性并不相同,但是当攻击者通过zip,sex,age确定一个用户在该表中时,无法确定该用户患有的是流感还是脑溢血,但是当攻击者具有背景知识,例如:知道该用户患有脑溢血的可能较小,则攻击者判断该用户有大概率患有流感。
- 未排序匹配攻击:当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如:当攻击者确定小明在小王之前,通过age判断两人在第二个等价类中,同时确定小明患有流感,小王患有脑溢血。
- 补充数据攻击:假如公开的数据有多种类型,如果它们的k-anonymity方法不同,那么攻击者可以通过关联多种数据推测用户信息。
3.l-diversity
由于 k-匿名存在以上缺陷, Machanavajjhala 等人在 2007 对 k-匿名提出了一个改进的方案, l-多样性。如果一个等价类里的敏感属性至少有l个 良表示(well-represented) 的取值,则称该等价类具有l-diversity。如果一个数据表里的所有等价类都具有l-diversity,则称该表具有l-diversity。l-diversity使得攻击者最多以1/l的概率确认某个体的敏感信息