在大数据时代,随着数据的价值被人们更多地挖掘和利用,各种隐私保护问题也越来越多地引起了大家的注意。给予这一点,相继提出了多种隐私保护算法。今天我们来讲解一种匿名隐私保护模型——k-匿名模型
在讲解k-匿名模型之前,我们首先对用户数据类型进行一个分类:
①显式标识符(ID,能够唯一地确定一条用户记录)
②准标识符(QI,能够以较高的概率结合一定的外部信息确定一条用户记录)
③敏感属性(需要保护的信息)
④非敏感属性(一般可以直接发布的信息)
接下来我们来正式介绍k-匿名模型,用T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。令是表T(d)在属性集合QI上的投影。表T(d)在属性集QI下满足k-匿名,当且仅当