隐私保护——笔记

最新推荐文章于 2024-07-17 23:52:00 发布

__Futian__

最新推荐文章于 2024-07-17 23:52:00 发布

阅读量746

点赞数 1

分类专栏： Lab 文章标签：隐私数据

本文链接：https://blog.csdn.net/Futian_1991/article/details/48935651

版权

Lab 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

2015年10月6日

一、文献阅读

微数据集：包含 n 条记录的数据表文件，每条记录包含个体的 m 个属性
属性按功能分：
- 标识符（Identifiers）：能唯一标识个体。
- 准标识符（Quasi-identifiers）：与其他数据进行链接后能标识个体。准标识符的选取取决于链接的外部数据表。
- 敏感属性（Sensitive attr）：隐私
- 非敏感属性（Non-sensitive attr）：普通属性
匿名化原则
- k-匿名（k-anonymity）：要求发布的数据中存在一定数量(至少为 k ) 的在准标识符上不可区分的记录
- l-多样性（l-diversity）：满足k-匿名,且同一等价类中的记录至少有 l 个”较好表现”(well-represented)的值
匿名化方法：不同于一般的扭曲、扰乱和随机化等方法，它能保持数据的真实性和一致性
- 泛化（Generalization）
  - 域泛化：属性域泛化成一般域。
    如，属性原始域 Z0={02138,02139,02141,02142} 被泛化成 Z1= {0213*,0214*}
  - 值泛化：原始属性域中的每个值直接泛化成一般域中的惟一值。
    如，02138、02139 –> 0213* –> 021** –> *****
- 抑制（Supperssion）
匿名化度量
- 精度度量：对于任一属性 $Ａ_i$ ，泛化层越高，精度越小，信息损失越大。
  $P r e c (R T) = 1 - \sum N a i = 1 \sum N j = 1 h | D G H A i | | P T | \cdot | N a |$ $Prec(RT)=1-\frac{\sum_{i=1}^{Na}\sum_{j=1}^{N}\frac h{|DGH_{A_i}|}}{|PT|\cdot|Na|}$
- 可用性度量：等价类越大及抑制记录越多时，匿名化代价越高，相应地，匿名化表的可用性越小。
  $C = \sum | E | \geq k | E | 2 + \sum | E | < k | D | | E |$ $C=\sum_{|E|\ge k}|E|^2+\sum_{|E|\lt k}|D||E|$
- 距离度量：度量匿名表中等价类内敏感属性值的分布与其在匿名表中的总体分布的差异。
  $M D : D [P, Q] = 1 m \sum i = 1 m 1 2 (p i - q i) K L D : D [P, Q] = H (P) - H (P, Q)$ $MD: D[P,Q]={1\over m}\sum_{i=1}^m{1 \over 2}(p_i-q_i) \\ KLD : D[P,Q]=H(P)-H(P,Q)$

__Futian__

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
隐私保护——笔记

2015年10月6日一、文献阅读微数据集：包含 n 条记录的数据表文件，每条记录包含个体的 m 个属性属性按功能分：标识符（Identifiers）：能唯一标识个体。准标识符（Quasi-identifiers）：与其他数据进行链接后能标识个体。准标识符的选取取决于链接的外部数据表。敏感属性（Sensitive attr）：隐私非敏感属性（Non-sensitive attr）：普
复制链接

扫一扫