差分隐私与机器学习

最新推荐文章于 2022-04-17 19:27:41 发布

XueDaxuan

最新推荐文章于 2022-04-17 19:27:41 发布

阅读量528

点赞数

分类专栏：差分隐私文章标签：机器学习人工智能

原文链接：https://blog.csdn.net/qq_41691212/article/details/121294742

版权

差分隐私专栏收录该内容

18 篇文章 8 订阅

订阅专栏

差分隐私与机器学习的综述【笔记】_谈论现实-CSDN博客Differential Privacy and Machine Learning: a Survey and Review 论文笔记总差分隐私部分：机器学习部分：评判标准：基于差分隐私应用在机器学习的一般思想：分基于差分隐私的监督学习：基于差分隐私的非监督学习：基于差分隐私的降维模型：统计估计：总理论结果：讨论：总差分隐私部分：作者在先验知识部分，介绍了查询的概念，这是其他文章没有提到的。在敏感度方面，按照时间线或者说缺陷的改进来说，从全局敏感度到局部敏感度最后到平滑敏感度框架以及采样聚合框架。https://blog.csdn.net/qq_41691212/article/details/121294742本调查回顾的论文解决了如何在尽可能少的噪声下训练差分隐私模型的问题。综上所述，降低噪声尺度一般有四个指导原则。首先，只添加一次噪声通常比多次添加噪声要好。这是因为如果我们多次添加噪声，我们必须将隐私预算分成许多更小的部分，并让每个噪声添加过程使用一部分。由于分配给每个过程的预算很小，噪声规模与隐私预算成负比，因此每个过程中添加的噪声量都很大。此外，当我们聚合输出时，噪声可以变得更大。因此，一次性添加噪声通常更好。例如，当我们训练一个逻辑回归模型时，我们可以在训练过程目标函数或最终模型中添加噪声。向目标函数添加噪声是一个一次性的过程。对于最终的模型也是如此。然而，由于训练过程是迭代的，在训练过程中添加噪声需要多次添加噪声。根据我们的经验，训练过程中增加噪声会导致明显的下降。其次，较低的全局灵敏度（与结果相比）会导致更小的噪声。在一种降低全局灵敏度的策略中，一些查询可以通过结合其他查询的结果来进行近似，每个查询的全局灵敏度都比原始查询要低得多。例如，[52]向生成朴素贝叶斯模型的计数添加噪声，而不是直接生成模型的条件概率。每个条件概率的全局灵敏度为1，这太高，无法有用。每个基础计数的全局敏感度为1，比计数要低得多。通过向这些计数中添加噪声，我们会遇到较低的全局灵敏度。另一种方法是修改模型。例如，[45]将内核SVM转换为线性SVM，[14]使用一个鲁棒的线性回归模型来代替常用的模型。第三，在某些情况下，在使用公共数据时可以降低噪声。对于一个私有数据集，通常会有一个来自类似人群的较小的公共数据集。这个公共数据集可以来自以前的泄露或得到数据所有者的同意。由于不同的私有机制会扭曲私有数据，因此较小的公共数据集有时会提供类似或更好的实用程序。根据[28,29]的说法，这样的公共数据集可以提高差异私有机制的性能。第四，对于某些模型，迭代噪声添加可能是合理的。有时输出模型参数的灵敏度非常大，但该迭代算法的灵敏度较小。这句话似乎违反了直觉，因为所有迭代的灵敏度之和应该与模型参数的灵敏度相似。然而，在某些情况下，每次迭代的灵敏度都是由迭代前的参数决定的。因此，这些迭代的灵敏度之和实际上依赖于训练路径。除了某些极端情况外，该和可以远远小于模型参数的灵敏度。在这种情况下，似乎有必要在迭代中添加噪声。
对于这些模型，我们可以考虑像[48]一样尝试基于MCMC的算法。似然函数或损失函数可以作为分数函数，大都会黑斯廷斯算法确保输出来自与指数机制相同的分布。这个想法仍然没有被广泛使用，但它似乎有可能提高学习性能。除了这四个想法之外，还有其他一些问题值得注意。例如，大多数不同的私有机制使用干净和完整的数据作为输入，这在实践中并不总是可用的。此外，传统的缺失数据或预处理方法可能不满足不同的隐私。因此，需要能够处理不完整数据的机制。这些机制既可以释放数据，也可以与其他不同的私有学习机制相结合。当讨论私有数据时，医疗数据通常作为一个示例应用程序提供。然而，医疗数据集往往不是相关的。它们可能是时间性的，有时也可能是结构性的。虽然我们可以转换这些数据，但转换可能会失去一些重要的信息，提高灵敏度。因此，需要专门为此类数据设计的机制。另一个重要的问题是，隐私是否可以免费，也就是说，在差异私人学习中免费实现隐私。为了使隐私获得自由，保护隐私所需的噪声可能需要小于来自样本随机性的噪声。在这种情况下，考虑到隐私，也不会改变噪音的大小。例如，[50]证明了(o，δ)微分隐私对于满足特定条件的学习模型是自由的。[6]中的机制确保了正则化逻辑回归模型和线性SVM模型的自由o微分隐私，其中来自样本随机性的噪声为O(1/√n)，而保持隐私的噪声为O(1/n)。[28]中的机制也证明了差异隐私所带来的噪声的影响为O(1/n），而样本随机性的影响为O（1/√n）。