【转】数据挖掘算法之k-匿名算法

原文链接:https://blog.csdn.net/Mrs_Wu/article/details/79658281   

 k-匿名攻击存在着同质化攻击和背景知识攻击两种缺陷。所谓同质化攻击是指某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。而背景知识攻击是指即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。

K匿名的基本概念

为解决链接攻击所导致的隐私泄露问题,引入k-匿名 (k-anonymity) 方法。k-匿名通过概括(对数据进行更加概括、抽象的描述)和隐匿(不发布某些数据项)技术,发布精度较低的数据,使得同一个准标识符至少有k条记录,使观察者无法通过准标识符连接记录。

   在大数据时代,随着数据的价值被人们更多地挖掘和利用,各种隐私保护问题也越来越多地引起了大家的注意。给予这一点,相继提出了多种隐私保护算法。今天我们来讲解一种匿名隐私保护模型——k-匿名模型

    在讲解k-匿名模型之前,我们首先对用户数据类型进行一个分类:

    ①显式标识符(ID,能够唯一地确定一条用户记录)

    ②准标识符(QI,能够以较高的概率结合一定的外部信息确定一条用户记录)

    ③敏感属性(需要保护的信息)

    ④非敏感属性(一般可以直接发布的信息)

     接下来我们来正式介绍k-匿名模型,用T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。令是表T(d)在属性集合QI上的投影。表T(d)在属性集QI下满足k-匿名,当且仅当中的任意一条记录都至少重复出现k次。在II运算符下,有相同QI值的所有记录组成一个匿名组。对于一个给定的k,每一个这样的匿名组都是一个k-匿名组或者叫做一个等价类。

    匿名化技术可以实现上述的k-匿名,概化和抑制是最常见的两种方法。所谓的概化是指对数据进行更加概括、抽象的描述,而抑制则是指不发布某些数据项。对下表中的数据进行概化:



原文链接:https://blog.csdn.net/Mrs_Wu/article/details/79658281

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小金子的夏天

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值