隐私保护——笔记

2015年10月6日
一、 文献阅读
  1. 微数据集:包含 n 条记录的数据表文件,每条记录包含个体的 m 个属性
  2. 属性按功能分:
    • 标识符(Identifiers):能唯一标识个体。
    • 准标识符(Quasi-identifiers):与其他数据进行链接后能标识个体。准标识符的选取取决于链接的外部数据表。
    • 敏感属性(Sensitive attr):隐私
    • 非敏感属性(Non-sensitive attr):普通属性
  3. 匿名化原则

    • k-匿名(k-anonymity):要求发布的数据中存在一定数量(至少为 k ) 的在准标识符上不可区分的记录
    • l-多样性(l-diversity):满足k-匿名,且同一等价类中的记录至少有 l 个”较好表现”(well-represented)的值
  4. 匿名化方法:不同于一般的扭曲、扰乱和随机化等方法,它能保持数据的真实性和一致性

    • 泛化(Generalization)
      • 域泛化:属性域泛化成一般域。
        如,属性原始域 Z0={02138,02139,02141,02142} 被泛化成 Z1= {0213*,0214*}
      • 值泛化:原始属性域中的每个值直接泛化成一般域中的惟一值。
        如,02138、02139 –> 0213* –> 021** –> *****
    • 抑制(Supperssion)
  5. 匿名化度量

    • 精度度量:对于任一属性 i ,泛化层越高,精度越小,信息损失越大。
      Prec(RT)=1Nai=1Nj=1h|DGHAi||PT||Na|
    • 可用性度量: 等价类越大及抑制记录越多时,匿名化代价越高,相应地,匿名化表的可用性越小。
      C=|E|k|E|2+|E|<k|D||E|
    • 距离度量:度量匿名表中等价类内敏感属性值的分布与其在匿名表中的总体分布的差异。
      MD:D[P,Q]=1mi=1m12(piqi)KLD:D[P,Q]=H(P)H(P,Q)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值