【论文阅读笔记】PPA: Preference Profiling Attack Against Federated Learning

_Mia_

已于 2023-03-15 17:14:05 修改

阅读量861

点赞数 3

分类专栏：论文笔记文章标签：论文阅读机器学习安全

于 2023-03-15 16:49:43 首次发布

本文链接：https://blog.csdn.net/leticia_m/article/details/129559796

版权

论文笔记专栏收录该内容

27 篇文章 7 订阅

订阅专栏

文章介绍了PPA，一种针对联邦学习的偏好分析攻击方法，利用本地梯度敏感性和数据异质性来揭示用户偏好。通过训练元分类器和选择性聚合策略，攻击者能够在不影响模型性能的情况下推断用户数据偏好。实验表明，即使在差分隐私防御下，PPA仍能实现较高攻击精度，但实际应用中实施难度大，未来防御可从客户端角度考虑。

摘要由CSDN通过智能技术生成

个人阅读笔记，如有错误欢迎指正

会议：NDSS 2023 [2202.04856] PPA: Preference Profiling Attack Against Federated Learning (arxiv.org)

问题

1. 客户端本地梯度的变化对其本地数据所有的类别具有敏感性，并且非独立同分布的异质性会进一步促进这种敏感型，因此可以针对这一特性进行攻击暴露客户端用户对类的偏好。

2.e.g.，如果数据集中不存在数据或数据量很小，则模型一开始就不具备泛化能力。模型将表现出更大的梯度效应，以改变相应神经元的权重，从而最小化模型的预期损失。

3.联邦学习具有异质性，这意味着FL用户在现实中具有不同的数据分布，并放大了本地数据集不同类别之间的梯度敏感性差异。

实现偏好攻击的三个挑战：

1.如何提取和量化每个类别（标签）的局部模型的梯度敏感性？

2.如何以细粒度的方式提高梯度敏感度的精度？

3.在给定量化敏感度的情况下，如何描述类别标签的样本量比例？

针对以上挑战的解决思路：

挑战1：给定一个模型，每个类用几个样本重新训练该模型，以获取每个类的梯度敏感度（变化）

挑战2：改变聚合方式，聚合“感兴趣的”客户端子集以提高梯度敏感性

挑战3：利用作为元分类器的攻击模型，通过将提取的用户上传模型和聚合模型的敏感度信息作为输入来自动预测目标用户数据偏好。

创新：

1.利用模型梯度信息构建了一种模型敏感度提取算法来确定每个类的梯度变化

2.设计了一种选择性聚合机制来提高偏好攻击的成功率

方法：

模型框架

上图框架中的步骤4中的元分类器是在离线阶段训练的，即sample用户并进行FL学习之前，服务器首先基于辅助数据集 $D_{aux}$ 离线训练元分类器

从辅助数据集 $D_{aux}$ 采样多个数据分布(以近似用户的异构数据分布)，并训练相应的影子模型（将其首选类作为标签）
记录第 $i$ 个影子模型的参数 $\theta_{shadow_i}$ 和他的偏好类别 $mc_i$
将 $D_{aux}$ 划分为所有类别 $N_{label}$ 的再训练数据集（每个子集 $D_{aux_N}$ 由来自单个类的样本组成）
记录再训练的模型参数 $\theta_{retrain}$ 并计算其类别的模型敏感度 $S$
标记元数据 $(S,mc_i)$ ，并训练元分类器 $m$

算法1和FL不够适配，聚合后可能会导致敏感性衰减，因此从两个方面进行了改进：成对聚合、连续两轮的的差异敏感性。改进后的元分类器训练中，每个阴影模型将与另一个阴影模型配对。步骤如下

将具有多数(majorty)类 $mc_i$ 的第 $i$ 个影子模型和剩余影子模型中的最高敏感度，即少数(minority)类，影子模型相聚和
服务器提取上步聚合模型的敏感度 $S1$ ，并更新其对应的影子模型
提取下一轮中更新的第 $i$ 个阴影模型的模型敏感度 $S2$ ( $S1$ 从聚合模型中提取，而 $S2$ 在下一轮中仅从更新的局部模型中提取)
$S1$ 和 $S2$ 之间的差异类似于FL中的两个连续循环 $|S1-S2|$ ，其首选类用于训练元分类器