ARX开源数据匿名软件的介绍
ARX有三大优势:(i)以高效率的方式实现了多种隐私方法,(ii)支持跨平台图形界面,(iii)提供可编程的API接口,(iv)文档支持。
其他的匿名工具:
PARAT:领先的商业去标识软件;
UTD Anonymization Toolbox:用于实验研究;
Cornell Anonymization Toolkit:用于研究实验;
sdcMirco2:R语言的一个包;
μ-Argus:no longer under active development;
以上工具都有多多少少的缺点,为了克服这些缺点,ARX被慕尼黑工大的研究员开发了出来,ARX对所有常见的隐私标准做支持,包括任意的组合;而且它实现了对常见的匿名任务进行系统自带的技术组合选择,更高效、更直观和更易于理解;同时对非专业IT人员提供了跨平台的图形界面接口,而对专业的IT技术人员提供了易于开发的API 接口。
1. 背景
阻止linkage attack的方法如下:
1. 区分出 EI 属性,它可以直接指认到具体的record,要把它去掉,例如社保号等;
2. QI 属性能够潜在地识别出record,所以要确保 QI 满足隐私标准,如何性别和年龄。通常使用 generalization hirearchies 技术,它可以支持种类属性和连续属性,如下图:
为了增加结果数据的可用性,这种方法通常结合着 tuple suppression 使用,违反隐私标准的 record 的(outliers)会自动从数据集中去掉。同时,所有的suppressed records 要保证不超过一个给定的阈值。这样做的结果是少量的 generalization 就可以保证剩下的record满足隐私标准。
2. 技术
K-Anonimity 是用途最广的隐私标准方法,它阻止 identity disclosure 的发生,而 l-diversity 和 t-closeness 阻止 attribute disclosure 的发生。 δ-Presence 用于保护数据集免受 membership disclosure 的威胁,membership disclosure 意思是攻击者能够决定某个record在不在数据集中。
3. 方法
针对非专业IT人员,ARX实现了 globally-optimal full-domain anonymization algorithm,通过修改 generalization hierarchies 或者从 solution space 选择一个合