【论文阅读笔记】Curse or Redemption? How Data Heterogeneity Affects the Robustness of Federated Learning

_Mia_

已于 2023-05-12 14:34:26 修改

阅读量133

点赞数 1

分类专栏：论文笔记文章标签：论文阅读笔记安全深度学习人工智能

于 2023-05-12 14:34:24 首次发布

本文链接：https://blog.csdn.net/leticia_m/article/details/130641747

版权

论文笔记专栏收录该内容

27 篇文章 7 订阅

订阅专栏

个人阅读笔记，如有错误欢迎指出

会议：AAAI 2021 (PDF) Curse or Redemption? How Data Heterogeneity Affects the Robustness of Federated Learning (researchgate.net)

问题：

数据异质性是联邦学习中后门攻击是都有效的主要因素，数据异质性如何影响攻击效果。

创新点：

从数据异质性入手，研究其对防御后门攻击以及对提高后门攻击有效性的手段。通过实验证明数据异质性是FL中攻击有效性的主要因素。

异质性数据对后门防御的影响;

1：当训练数据的异质性增加时，攻击有效性（通常以攻击成功率或ASR来衡量）急剧降低。

2：鉴于训练数据是异构的，在定义攻击策略时，恶意数据分布是一个被忽视的重要因素。恶意数据分布选择不当会导致攻击效果不佳。

3：进一步发现恶意数据分发是后门有效性的主要因素。与现有工作中的普遍观点相反，即更高的攻击规模（定义为受损客户端的数量）和本地攻击预算（定义为每个客户端的后门数据量）总是会导致更高的进攻有效性，我们的研究表明，情况并非总是如此，因为恶意数据分发往往优于攻击规模/预算的影响。

异质性数据对攻击的影响：

1：数据异构性使得客户端训练对后门攻击时机非常敏感。通过适当的攻击时机，例如在最后一次本地批处理时，只需一小部分攻击预算就可以显著提高攻击的有效性。

2：数据异质性使基于偏斜特征的防御策略（如余弦相似性）无法实现。这种防御方法通过意识到受损客户端的特征比良性客户端更过拟合来检测受损客户端。然而，由于数据的异构性，良性客户端也可能具有与受损客户端相似的过度拟合功能。这使得后门攻击者能够伪装自己，欺骗扭曲的功能检查。

3：借助分布距离测量，如卡方统计，使后门客户端的数据分布接近整体数据分布，可以得出更有效的攻击策略。为了抵御数据异质性带来的这些诅咒，讨论了现有的防御机制是如何适应的，以及数据异质性感知防御策略的潜在方向。

实验设置：

数据集以及模型设置：

数据异质性衡量标准：客户端上的数据种类越少，数据异质性越大

$c$ 为该客户端的数据含有的类别数

$c_{max}$ 为该数据集含有的总的类别数

Attack Success Rate (ASR)用以衡量攻击有效性

实验结果：

数据异质性对防御后门攻击的有利影响：

1、数据异质性越大，平均的攻击效果越差，且攻击的稳定性下降。由于数据异质性越大，不同客户端的模型之间的特征偏差越大，以至于可能出现过拟合，从而抑制后门特征。

2、恶意数据分布是影响后门攻击效果的重要因素

实验中数据异质性程度相同，恶意客户端使用不同的数据分布，上图中的数据一条为恶意客户端的一种数据分布

不同的分布得到的ASR差别会很大，这种行为可以解释为后门触发的有效性取决于训练数据分布和恶意数据分布之间的特征空间差异。

恶意数据分布的不当选择可能导致较差的攻击有效性，这使得攻击者在设计攻击数据集时增添了难度。

3、与攻击规模、攻击总预算的重要性对比

高的攻击规模和总攻击预算并不意味着高攻击效果，这是个反直觉的结果，被忽视的恶意数据分布实际上是FL后门攻击的主要因素。

通过设置分布实现的恶意攻击的效果难以预测，也使得攻击者难以设计出高效的攻击策略。

数据异质性对设计后门攻击的有利影响：

1、攻击时间影响

攻击时间在后几轮时，攻击效果越强，即使规模下降，效果仍较强

异质性提高，均匀攻击效果下降，而在后几轮的集中攻击中效果基本不变

2、较高的异质性导致基于Skewed-Feature的防御策略失败

较高的数据异质性导致良性客户端中的权重不相似性较多。良性数据中如此高的数据权重不相似性甚至可能高于后门数据的不相似性，这使得恶意数据能够在基于Skewed-Feature的防御下与良性数据难以区分。

3、恶意数据分布影响，恶意数据分布和整体训练数据分布之间的分布距离与攻击有效性密切相关

以卡方距离为例，回归曲线表明ASR和卡方距离之间具有良好的相关性，并且当卡方距离较小时，点更加聚集。

较低的卡方距离攻击实现了更好的ASR，甚至可以优于具有较高预算但也具有较高卡方距离的攻击

防御由数据异质性带来的攻击

1、在聚合过程中避免过度拟合的权重更新，设计的一种手段为聚合器假设所有客户端都是恶意的，聚合器维护全局但较小IID数据集，以在聚合之前训练所有参与客户端的更新权重。因此，由于后门触发导致的过拟合被最小化。结果ASR显著降低。

2、多样化客户端的选择，避免在相近的轮数中选中相同的客户端，这样即使局部模型被后门触发器过拟合，过拟合的局部模型权重累积到全局模型的机会也较小。

3、保护全局数据的分布，在实验中伪装全局数据分布使得攻击数据与实际的数据分布的卡方距离有较大偏差，进一步使得ASR大幅降低。还可以尝试破坏全球数据分布，例如在聚合器中保留额外的数据，或者通过类似GAN的数据匿名化，这可以用来设计更稳健的聚合方法。

总结

是否可以将针对边缘数据的攻击看作是极端异质性情况呢

_Mia_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录