Classification Rule Mining through SMC for Preserving Privacy Data Mining A Review
Abstract
数据库中的数据挖掘和知识发现是数据库技术的两个新领域,它们研究自动提取以识别大量数据中的隐藏模式和趋势。一些研究人员通过考虑不同情况(例如可伸缩性,计算时间,I / O复杂性,缺少的属性值,多个决策属性,决策系统的隐私保护),为生成分类规则的算法做出了贡献。本文着重研究多方环境下的隐私保护分类技术。此外,还对分类和安全的多方计算算法进行了审查。已经结合分类讨论了算法的性能分析。
Introduction
分类规则挖掘算法基本上基于集中式数据模型,即所有数据都收集到一个站点中。之后,对这些数据运行现有的分类规则挖掘算法。存在许多在这种方法下不可行的应用程序,从而导致了对分布式数据挖掘的需求。分布式数据挖掘中的分类算法主要是从效率而非安全性的角度开发的。安全的分布式分类问题是一个重要的问题。在许多情况下,数据会在多个组织之间分配。这些组织可能希望利用所有数据来创建更准确的预测分类模型,同时不透露其训练数据或要分类的实例。在许多重要的应用程序中,互不信任方的集合必须共享信息,而又不损害其隐私。为了保护私有数据,各方进行隐私保护计算;也就是说,在计算结束时,除了它自己的私有数据和结果之外,没有任何一方知道任何事情。
Classification Rule Mining
Decision Tree Classification
决策树分类器可有效用于以下领域:雷达信号分类,字符识别,遥感,医学诊断,专家系统和语音识别等。决策树分类器的最重要特征之一是能够分解复杂的决策。使流程变成更简单的决策的集合,从而提供通常更易于解释的解决方案。决策树是易于阅读和应用的分类器表示。决策树是由节点和边组成的有向图。根节点和内部节点代表测试,输出边缘代表测试结果。叶节点是类标签,指示该示例所属的组。基本决策树算法是ID3 [30]及其流行的后继C4.5 [31]。 C4.5除其他功能外,还增强了处理连续(非分类)属性的功能。树生成过程中最重要的步骤是在每个节点上选择split属性。为此,ID3和C4.5依赖于信息增益度量[1,6]。
An Overview of Classification
Privacy Preserving Data Mining
隐私保护数据分类的目的是建立准确的分类器,而不会在正在挖掘的数据中泄露私人信息。
Secure Multiparty Computation
为了使计算安全,为此,我们允许不确定地使用中间通信中发送的确切值(例如,使用随机选择的密钥进行加密),并表明只有输入和输出的一方才能生成“谓词”中间计算可能是实际值[1,5,9,20]。
An Overview of privacy Preserving Data Mining
No. | Topic | Author | purpose |
---|---|---|---|
1 | Secure Multi Party Computation Problems & Their Applications: A Review & Open Problems | Wenliang Du & Mikhail J. Atallah | 为它们的特定计算定义了各种SMC问题,例如隐私保护数据挖掘,隐私保护入侵检测,隐私保护几何计算。 |
2 | Building Decision Tree Classifier on Private Data | Wenliong Du & Zhijun Zhan | 在垂直分区的数据上构建了决策树分类器,以保护隐私。 |
3 | Leveraging the “Multi” in Secure Multi-Party Computation | Jaideep Vaidya & Chris Clifton | 概述了用于确保多方计算安全的方法,并给出了一种方法,其中通过使用不受信任的第三方的两方有效协议,可以使用有效的对等SMC协议。 |
4 | State-of-the-art in Privacy Preserving Data Mining | V. S. Verykios, | 概述了隐私保护数据挖掘的新领域和快速发展的研究领域,还对隐私保护算法的技术进行了分类,回顾和评估。 |
5 | A New Scheme on Privacy Preserving Data Classification | Zan Zhang, et al | 介绍了一种基于代数技术的方案,并与随机方法进行了比较。 |
6 | Privacy Preserving Decision Tree Learning over multiple parties | F. Emekci, et al | 重点讨论分类问题,并提出一种使用ID3算法以隐私保护方式构建决策树的有效算法。 |
7 | Tools for Privacy Preserving Distributed Data Mining | Chris Clifton, et al | 介绍了一些工具并展示了如何将其用于解决一些保护隐私的数据挖掘问题。 |
8 | Privacy Preserving Decision Tree Learning over Vertically Partitioned Data | Weiwei Fang | 针对超过两方垂直分割数据的分类问题,提出了一种新颖的隐私保护决策树学习方法。 |
9 | Privacy Preserving Decision Tree over Vertically Partitioned Data | Jaideep Vaidya and Chris Clifton, et al | 解决了分类问题,并引入了ID3算法的通用隐私保留变体,用于在两个或多个参与方之间分布的垂直分区数据。 |
10 | Privacy Preserving Data Mining | R. Agrawal & R. Shrikant | 提出了一种新颖的重建程序,以通过这些重建的分布准确地估计原始数据值的分布。 |
11 | Privacy Preserving Data Mining | Y. Lindell, B. Pinkas | 专注于ID3算法和协议的决策树学习问题效率更高。 |
12 | Privacy Preserving Naive Bayes Classification | J. Vaidya, et al | 提出了在垂直和水平分区的数据上开发Naive Bayes分类器的协议。 |
13 | Privacy Preserving Naive Bayes Classifier for Horizontally Partitioned data | M. Kantarcioglu & J. Vaidya | 提出了在水平划分的数据上开发Naive Bayes分类器的协议。 |
14 | Privacy Preserving Naive Bayes Classifier for Vertically Partitioned data | J. Vaidya & C. Clifton | 提出了用于在垂直分区的数据上开发Naive Bayes分类器的协议。 |
15 | Information Sharing Across Private Data | R. Agrawal, et al | 正式化了在私有数据库之间最小化信息共享的概念,开发了相交,等分,相交大小,等分大小的协议。 |
16 | A Framework for high accuracy Privacy Preserving Mining | Shipra Agrawal & Jayant R. Harista | 提出了一种新颖的摄动机制,其中矩阵元素本身被表征为随机变量。 |
17 | Using Randomized response techniques for Privacy Preserving Data Mining | Wenliang Du & Zhijun Zhan | 建议使用随机响应技术进行数据挖掘计算,并根据变相数据建立决策树分类器。 |
18 | Induction of Decision Tree | J. R. Quinlan | 总结了一种综合决策树的方法,并详细描述了一个这样的系统ID3。 |
19 | Cryptographic Techniques for Privacy Preserving Data Mining | Benny Pinkas | 旨在演示有关安全分布式计算及其在数据挖掘中的应用的大量密码研究的基本思想。 |
20 | How to generate and exchange secrets | A. C. Yao | 引入了一种用于控制密码协议设计中知识转移过程的新工具,并用于解决两方密码问题。 |
21 | Defining Privacy for Data Mining | Chris Clifton, et al | 提供了用于讨论隐私保护数据挖掘含义的框架和度量,作为该领域进一步研究的基础。 |
22 | A Framework for Privacy Preserving Classification in Data Mining | Md. Zahidul Islam and Ljiljana Brankovic | 提出了一种噪声添加框架,用于保护用于数据挖掘目的的敏感信息的隐私。该框架不会区分机密属性和非机密属性,而是会给所有属性增加噪音。 |
23 | Privacy-Preserving Decision Tree Mining Based on Random Substitutions | Jim Dowd, Shouhuai Xu, and Weining Zhang | 提出了一种基于随机替换的数据扰动技术,并证明了由此产生的保护隐私的决策树挖掘方法可以抵抗看似相关的攻击。系统实验表明它也是有效的。 |