隐私保护手段包括:抑制(suppression)、泛化(generalization)、置换(permutation)、扰动(perturbation)、裁剪(anatomy)等。
1.抑制:最常见的数据匿名措施,通过将数据置空的方式限制数据发布。
2.泛化:通过降低数据精度来提供匿名方法。属性泛化即通过制定泛化规则,使得多个元组的在规则下近似的取值相同。最深的属性泛化效果通常等同于抑制。社交关系数据的泛化则是将某些节点以及这些节点间的连接进行泛化。位置轨迹数据可进行时间、空间泛化。
3.置换:不对数据内容作更改,但是改变数据的属主。
4.扰动:在数据发布时添加一定的噪音,包括数据增删、变换等。
5.裁剪:将数据分开发布。
显示标识符(Explicit Identifier):能唯一标识单一个体的属性,如身份证号,姓名等。
准标识符(QID,Quasi-Identifier):联合起来就能唯一标识一个人的多个属性,如邮编,生日,性别等联合起来则可能是准标识符。
敏感属性(Sensitive Attribute):包含隐私数据的属性,如疾病,薪资等。
k-匿名:
背景:即便去除了表中的身份ID等标志性信息,攻击者仍可凭借背景知识,如地域、性别等准标识符信息,迅速确定攻击目标对应的记录。此类攻击称为记录链接(record linkage)攻击。
定义:令T()为一张具有有限行的表,属性集合为{
}。Q
为表中的准标识符Q
={
}。表T满足K-匿名,当且仅当每一组准标识符的取值序列在T[QI]中出现至少k次。
L-多样化、T-贴近,M-不变性等。
社交图谱的隐私保护:节点匿名、边匿名、属性匿名。
位置轨迹隐私保护:
面向 基于位置的服务(Location Based Service,LBS)应用的隐私保护:Mix-zone在路网中的应用、隐私信息检索(PIR)在近邻查询中的应用。
隐私信息检索(private information retrieval,PIR)