K-匿名算法

最新推荐文章于 2025-02-15 19:35:13 发布

培根芝士

最新推荐文章于 2025-02-15 19:35:13 发布

阅读量2w

点赞数 33

分类专栏：多方安全计算文章标签：多方安全计算数据脱敏

本文链接：https://blog.csdn.net/watson2017/article/details/121698782

版权

多方安全计算专栏收录该内容

15 篇文章

订阅专栏

在大数据的时代，很多机构需要面向公众或研究者发布其收集的数据，例如医疗数据，地区政务数据等。这些数据中往往包含了个人用户或企业用户的隐私数据，这要求发布机构在发布前对数据进行脱敏处理。K匿名算法是比较通用的一种数据脱敏方法。

K-匿名的基本概念

为解决链接攻击所导致的隐私泄露问题，引入k-匿名 (k-anonymity) 方法。k-匿名通过概括（对数据进行更加概括、抽象的描述）和隐匿（不发布某些数据项）技术，发布精度较低的数据，使得同一个准标识符至少有k条记录，使观察者无法通过准标识符连接记录。

概括(Generalization)：指对数据进行更加概括、抽象的描述，使得无法区分具体数值，例如年龄这个数据组，概括成一个年龄段(例如上表中的>=40岁)。
隐匿(Suppression)：指不发布某些信息，例如上表中的用*号替换邮编的末三位。通过降低发布数据的精度，使得每条记录至少与数据表中其他的K-1条记录具有完全相同的准标识符属性值，从而降低链接攻击所导致的隐私泄露风险。

原表虽然隐去了姓名，但是攻击者通过邮编和年纪，依然可以定位一条记录，经过k匿名后，对邮编和年纪做以抽象，攻击者即使知道某一用户的具体邮编为47906，年龄47，也无法确定用户患哪一种病。上图的同一个准标识符{邮编，年纪}至少有3条记录，所以为3匿名模型。

k匿名模型的实施，使得观察者无法以高于1/k的置信度通过准标识符来识别用户。

K-匿名算法实践

（一）泛化技术分类

K-匿名算法按照泛化范围，可以分为全局算法和局部算法。

全局算法：

在整个属性列上进行泛化，如把邮编最后3位数隐匿，这种泛化会带来很高的信息损失，因为原始数据表中的数据的分布不平均，存在一些有孤立的数据，要想满足匿名化的条件，就要把整个数据表一遍又一遍的泛化，直到所有的准标示符属性泛化之后得到的组合能够在相对应的泛化层次中找到，因此造成了数据表的泛化过度，产生不必要的泛化，信息失真度较大。为了解决这一问题，减少数据的损失量，学术界将研究目标全域重新编码算法转移到了局部重新编码算法。

局部算法：

将同属性列中的元素泛化到不同的等级，在单个元组上对，准标示符属性值进行泛化处理的，它将同一个准标示符属性列之中，不同个体的属性值泛化到相对独立的不同泛化层次结构中，这样就不会造成数据表的过度泛化，将匿名表中的数据损失量控制到最小。

减少了数据损失量。

（二）Datafly算法

算法实施：

对每个准标识符属性的取值个数进行统计，取出统计值最大的准标识符进行一个层级的泛化。
对泛化后的表格进行k匿名检测。
如果泛化后的数据表符合k匿名检测，则输出，如果不符合，goto 1

以下图为例：

Step1：邮编属性个数为4，对其进行泛化

Step2：泛化结果如图所示，对其进行匿名检测，不符合匿名规则， goto 1

Step3：年龄属性个数为3，对其进行泛化

Step4：泛化结果如图所示，对其进行匿名检测，第4条记录可以唯一确定一条信息，不符合匿名规则 goto 1

Step5：年龄属性个数为2，对其进行泛化

符合2-匿名规则，输出次表格。

（三）KACA算法

（k-Anonymity by Clustering in Attribute）

基本概念

（1）数值之间的距离

如：最大号码123456，最小号码1*****，电话号码123456，与电话号码123455之间的距离为

(123456-123455)/ 123456 == 1/123456，可以看出123456与123455之间距离很小

其中A（vi，vj）代表分类树中以vi和vj的最小公共祖先为根的子树，H(T)表示分类树T的高度。

图中Asia，与American的距离为1/3,china和Mexico的距离为3/3，显然Asia与American的距离更近。

（2）泛化的加权层次距离

泛化的加权层次距离：Weighted hierarchical distance，反应不同的泛化层级之间的距离。

设h为属性A可能泛化的最高层次，D1为值域，D2………Dn为泛化域，Wj,j-1为Dj与Dj-l(2 <= j <= h)之间的泛化权重。由Dp中的值泛化到Dq(p>q)中的值的距离定义为下，称之为泛化的加权层次距离。

如生日的泛化层级：

D／M／Y---->M／Y ---->Y---->*

对应的泛化域

D4---->D3---->D2---->D1

当权值都为1时，D／M／Y层泛化到Y层的加权层次距离为： WHD(4，2)=(1+1)／1+1+1=0.67，67。但是，它没有反映出不同泛化层的泛化的差异，如“1970／02／28”泛化成“1970／02／*”，对应的加权层次距离为0.33， “1970／02／*’泛化成“1970／*／*”，加权层次距离仍为0.33，而后一种的失真程度显然比前一种的大。

重新定义泛化权重Wj,j-1=1/(j-1)^β，可以简单的定义β=1，

此时W4,3=1／3，W3,2=1／2，W2,1=1，

这种定义则能反映不同泛化层的泛化的差异。比如：生日属性的泛化层次为D／M／Y---->M／Y ---->Y---->*，从D／M／Y层泛化到M/Y层的加权层次距离WHD(4，3)=(1／3)／(1／3+1／2+1)=0．18。而从Y泛化到*的加权层级距离

WHD(2，1)=(1／1)／(1／3+1／2+1)=0．55。

（3）元组之间的失真度：

例如元组{china，少年，男性}，对应的属性泛化级分别为{国家，东西半球，大洲,地球}和{少年，青少年，人}，则元组t={china，青年，男性}与其泛化元组t´={East，青少年，男性}之间的失真度为

Distortion = WHD(level(v1), level(v1´)) + WHD(level(v2), level(v2´))

=1/3 + 1/2 = 5/6

（4）数据表之间的失真度：

将每个元组与其最终的泛化表之间求加权层次距离WHD，再累加求和，即为数据表之间的失真度。