[NDSS 2023] PPA：针对联邦学习的偏好分析攻击

最新推荐文章于 2024-06-02 16:48:54 发布

sinat_38007523

最新推荐文章于 2024-06-02 16:48:54 发布

阅读量1.6k

点赞数 25

分类专栏：论文笔记联邦学习文章标签：算法

本文链接：https://blog.csdn.net/sinat_38007523/article/details/134871491

版权

论文笔记同时被 2 个专栏收录

39 篇文章 3 订阅

订阅专栏

联邦学习

10 篇文章 1 订阅

订阅专栏

PPA: Preference Profiling Attack Against Federated Learning

摘要

联邦学习（FL）在许多分散的用户中训练全局模型，每个用户都有一个本地数据集。与传统的集中式学习相比，FL不需要直接访问本地数据集，因此旨在减轻数据隐私问题。然而，由于推理攻击，包括成员推理，属性推理和数据倒置，FL中的数据隐私泄漏仍然存在。

PPAattack · GitHub

一、引言

由于传统的集中式深度学习需要将用户数据聚合到一个地方，因此可能会被滥用以泄露用户数据隐私，并违反国家法规，如通用数据保护条例（GDPR）[ 37]，加州隐私权法案（CPRA）[ 44]和中国数据安全法（CDSL）[ 10]。与集中式学习相比，联邦学习（FL）[ 31]通过使用本地用户模型更新而不是原始用户数据来消除需求，从而显着减少数据隐私泄露[ 52，55，63，5]。因此，FL已成为最受欢迎的分布式机器学习技术，并支持广泛的隐私敏感应用，如智能医疗保健，社交网络和无线通信[ 59，45，62，35，42，9]。

最先进的攻击：尽管如此，FL中的私人用户信息仍然可以通过推理攻击泄露[ 33]，如图1所示。到目前为止，有三种已知的隐私推断攻击。具体来说，成员推断攻击[ 41，34]确定特定数据记录是否用于训练受害者用户上传的模型。属性推断攻击[13，32]推断目标属性是否存在于受害者用户的本地数据集中。生成对抗网络（GAN）攻击[ 19，50]基于受害用户上传的模型对目标标签的图像进行逆向工程。在隐私敏感的应用中，这些推理攻击可能会泄露目标用户的隐私信息，对FL中的用户隐私构成严重威胁[ 30]。以DNA确定为例，成员推断攻击可以利用统计距离测量来确定已知个体是否在DNA混合物中[ 16]。

上述隐私推断攻击都不能分析FL的本地用户数据偏好，这是攻击者感兴趣的最敏感类型的个人信息之一，类似于分析社交网络中的用户[6，53，3，15]。例如，在基于FL的推荐系统[ 54，2，39]中，攻击者会对FL参与者的用户喜欢（不喜欢）的商品感兴趣，因为购物中心的最佳（最差）销售商品是商业竞争对手的吸引力目标。在这方面，我们提出以下问题：

在FL中分析用户数据偏好是否可行？如果是这样，我们能证明一个有效的偏好分析攻击吗？

偏好分析攻击：我们提供了肯定的答案，并证明，有效地分析用户的喜好，可以利用我们提出的技术。可行的PPA攻击建立在我们的关键观察基础上。

关键观察结果：模型记住了训练数据集的数据分布特征，并无意中以梯度变化的形式反映出来，也就是说，当模型在数据集上训练时，其梯度变化与类的样本大小有关。例如，如果数据不存在或在数据集中有少量数据，则模型在开始时不具有泛化能力。因此，模型将表现出更大的梯度效应来改变相应神经元的权重，以最小化模型的预期损失。也就是说，模型训练过程中的梯度变化或灵敏度与类的样本量成反比：当类的样本量小（大）时，将引入大（小）梯度变化或灵敏度（详见第V-A节）。此外，FL具有两个固有特征：系统和统计异质性[ 26，21]。统计异质性意味着FL用户在现实中具有不同的数据分布，并放大了本地数据集的不同类别之间的梯度敏感性差异，这有助于PPA。

挑战：要实现PPA，有三个主要挑战：

·如何提取和量化每个类（标签）的局部模型的梯度敏感性？
·如何以细粒度的方式提高梯度灵敏度的精度？
·在给定量化敏感度的情况下，如何描述类别标签的样本大小比例？

我们的解决方案：对于第一个挑战，给定一个用户上传的模型，我们用每个类的几个样本迭代地重新训练它，以提取每个类的梯度灵敏度（变化）。类的样本量比例越大，灵敏度越低。对于第二个挑战，我们策略性地选择一个用户子集来聚合感兴趣的用户的模型子集，用于全局模型更新-这类似于FL中常用的采样。我们称之为选择性聚合。由于平凡地聚合所有模型会隐藏每个用户的数据特征，因此难以在连续轮中显著地提取局部模型敏感性。这允许攻击者在下一轮FL中获得感兴趣用户的细粒度敏感度信息，同时不会降低全局模型效用，从而仍然保持隐身。对于最后一个挑战，我们利用一个攻击模型，这是一个元分类器，通过馈送用户上传模型和聚合模型的敏感性信息作为输入，自动预测目标用户的数据偏好。

贡献：我们做出了三大贡献：

二、背景及相关工作

三、偏好分析攻击

III-B PPA概述

PPA基于一个关键的观察结果，即训练数据集中类的样本比例大小会直接影响模型的梯度变化灵敏度。作为攻击者的服务器利用用户模型敏感性提取来分析用户（数据）偏好的类别，特别是在很大程度上对商业应用最感兴趣的多数和少数类别，正如我们稍后评估的那样。与此同时，由用户访问的全局模型被提供而没有效用降级，同时通过选择性地聚合用户模型的子集（即，选择性聚合）来促进PPA。总的来说，PPA有四个步骤，如图3所示，每个步骤都在下面简要描述，然后详细说明。表I总结了这些符号。

用户本地模型训练。具有异构数据的用户在本地训练模型并将其上传到服务器。
模型灵敏度提取。在接收到用户本地模型之后，服务器使用辅助数据集来重新训练模型，以便提取每个类的模型敏感度。
用户偏好分析。当获得模型敏感性时，元分类器用于预测用户偏好的类别。
选择性聚合。不是通过所有用户模型形成全局模型，而是对于目标局部模型，在聚合中仅使用与目标模型相比其多数（少数）类具有最高（最低）模型灵敏度的 x 模型。然后将此聚合模型发送给目标用户-每个用户可能会收到不同的聚合模型。这是为了提高PPA的攻击精度。

步骤4）需要一个元分类器，它在离线阶段准备。换句话说，在FL在多个用户之间开始之前，服务器基于辅助数据集 Daux 离线训练Meta分类器。下面详细介绍每个步骤的实现细节和离线元分类器训练。按照时间顺序，我们从元分类器离线训练开始。

sinat_38007523

关注

25
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
[NDSS 2023] PPA：针对联邦学习的偏好分析攻击

因此，FL已成为最受欢迎的分布式机器学习技术，并支持广泛的隐私敏感应用，如智能医疗保健，社交网络和无线通信[ 59，45，62，35，42，9]。上述隐私推断攻击都不能分析FL的本地用户数据偏好，这是攻击者感兴趣的最敏感类型的个人信息之一，类似于分析社交网络中的用户[6，53，3，15]。例如，在基于FL的推荐系统[ 54，2，39]中，攻击者会对FL参与者的用户喜欢（不喜欢）的商品感兴趣，因为购物中心的最佳（最差）销售商品是商业竞争对手的吸引力目标。当获得模型敏感性时，元分类器用于预测用户偏好的类别。
复制链接

扫一扫