联邦学习系统攻击与防御技术

​​​​​​​

摘要

联邦学习作为一种使用分布式训练数据集构建机器学习模型的新兴技术,可有效解决不同数据用户之间因联合建模而导致的本地数据隐私泄露问题,从而被广泛应用于多个领域并得到迅速发展。然而,现有的联邦学习系统已被证实在数据收集阶段、训练阶段和推理阶段都存在潜在威胁,危及数据的隐私性和系统的鲁棒性。本文从安全威胁和隐私威胁两类潜在威胁入手,围绕机密性、完整性和可用性(CIA 三元组)给出了联邦学习场景中安全属性的详细定义,并对联邦学习中各类攻击方式和防御手段进行了系统全面综述。


首先,本文对横向、纵向联邦学习过程,以及潜在威胁分别进行了概述,并从对抗性攻击和非对抗性攻击两个角度,分析了投毒攻击、对抗样本攻击和推理攻击等常见攻击的基本概念、实施阶段和现有方案。进一步地,依据不同的攻击方式,将防御手段划分为鲁棒性提升方法和隐私性增强技术两类:鲁棒性提升方法主要防御系统遭受的对抗性攻击,包括有数据消毒、鲁棒性聚合、异常检测、对抗训练、知识蒸馏、剪枝和其他方法等,隐私性增强技术主要防御系统遭受的非对抗性攻击,包括有同态加密、安全多方计算、差分隐私和区块链等。最后,本文给出了联邦学习中鲁棒性和隐私性方面的未来研究方向。
 

论文链接:http://cjc.ict.ac.cn/online/bfpub/gy-2023222151851.pdf 

1、引言

人工智能已成为引领新一代产业变革的新兴技术,尤其对应用创新、企业转型及社会发展有着重大影响,已经上升到国家战略层面。作为人工智能核心技术的机器学习却面临着隐私威胁和信任危机等问题[1],迫使各个用户将数据存储在本地,彼此之间难以流通,形成了“数据孤岛”。数据孤岛问题阻碍了多个用户进行有效的数据合作,导致数据的潜在价值难以发挥。此外,数据孤岛中非同源的数据之间相互关联但又存在较大差异,致使这些数据呈现非独立同分布(Non-Independent and Identically Distributed,NON-IID),带来了新的挑战。联邦学习(Federated Learning,FL)[2-4]作为机器学习技术的新分支,能满足隐私数据不出本地的前提下,在多个用户之间进行高效率的联合建模、模型训练,充分释放数据潜在价值,近年来已被广泛应用于键盘预测[5]、安全检测[6-7]和信号识别[8]等。 

虽然联邦学习能一定程度解决本地数据的隐私问题,但在模型参数共享、模型聚合时又会给攻击者带来新的可乘之机,如联邦学习的梯度会泄露用户数据或学习过程的隐私信息[9-11],攻击者会对训练数据或局部模型进行投毒[12]或在输入样本中加入恶意扰动[13],从而危害系统的安全性。针对不同目标、不同程度和不同类型的攻击威胁,联邦学习系统往往需要预先制定好相对应的防御策略,以增强系统的鲁棒性和隐私性。

目前,国内外已有许多联邦学习相关的研究,例如,Yin等[14]面向隐私保护的联邦学习进行了全面的综述,Abdulrahman等[15]详细阐述了联邦学习面临的主要技术挑战,但他们都未进一步区分安全威胁和隐私威胁的差异。在联邦学习安全与隐私保护的综述[16-18]中,分别探讨了安全和隐私方面面临的挑战,但在鲁棒性和隐私性防御手段方面没有展开分析与总结。

He等[19]分析了深度学习中安全威胁相关的四种攻击,通过定量和定性分析这些攻击方法的敌手能力和攻击目标,总结出这些方法的优缺点,并讨论了其他的安全弱点和可能的防御措施。但提到的攻击威胁在联邦学习模型中不一定具有同等的攻击效果,防御措施在联邦学习模型中也可能受到限制。Lyu等[20-21]提供了一种独特的威胁模型分类方法,侧重介绍联邦学习中的安全与隐私问题,强调了隐私保护的重要性。但该篇文章只重点介绍了投毒攻击和推理攻击两种攻击威胁,对防御措施缺乏详细的梳理与分析。2021年,Mothukuri等[22]针对联邦学习中的安全和隐私问题,以及相应的防御措施做出了系统性综述。但该篇文章中阐述的防御手段都是较为传统的方法,缺少对前沿创新性工作的介绍,如联邦学习结合同态加密、差分隐私、安全多方计算和区块链等隐私增强技术。对比以上这些综述,本文在文章架构、分析方法和侧重点上都有所不同。

本文更详细且全面地梳理了联邦学习中的安全威胁和隐私威胁,系统地对攻击手段与防御手段进行了分类与剖析,侧重分析了最前沿的联邦学习与密码技术相结合的隐私保护方案,并进一步讨论了横向和纵向联邦学习中攻击手段的区别,以及在此基础上为后续研究者提供了具有发展前景的研究方向。

本文的组织结构安排如下。第 2 节对联邦学习和其潜在威胁进行概述;第 3 节详细地介绍了几种常见攻击的分类和研究进展;第 4 节在已有的攻击手段和研究成果基础上,从鲁棒性和隐私性两个角度对提升手段进行了具体分析;第 5 节讨论了联邦学习未来研究发展趋势;最后,在第 6 节总结全文。

2、联邦学习中的潜在威胁

2.1 联邦学习概述

联邦学习是一种以分布式方式训练模型的机器学习技术,其主要思想是确保参与方的数据保留在本地,而将训练的模型进一步上传和聚合到服务器。后续学习过程仅使用模型进行训练,保护了参与方的数据隐私,从而保护了数据安全。在用户数据集中的训练样本包含多个特征数据,其中选择一个或多个能够将不同训练样本区分开来的特征作为样本的标识符,即样本 ID。在联邦学习场景下,每个数据集的组织和使用形式存在差异,其特征和样本 ID 可能存在差异。联邦学习从不同数据分布方式可分为横向联邦学习(Horizontal Federated Learning,HFL)、纵向联邦学习(Vertical Federated Learning , VFL )和迁移联邦学习 (Federated Transfer Learning,FTL)三种类型。依照传统机器学习过程的划分,联邦学习则可以分为三个阶段:数据收集阶段、训练阶段和推理阶段。联邦学习在这三个阶段都具有新的特点。

(1) 数据收集阶段:指训练模型所需要的数据准备过程。在传统机器学习中需要对每个用户的数据进行集中收集,为模型训练做准备。而在联邦学习中,数据集不会离开本地,具体为本地的数据收集、用户之间数据格式的协商等准备过程。

(2) 模型训练阶段:指利用这些数据集执行机器学习训练算法,挖掘数据的潜在价值,迭代训练一定轮次后直至收敛的过程。在联邦学习中,由于数据集的分布式划分以及隐私性要求,需要使用特定的模型训练算法。

(3) 推理阶段:指把训练好的模型部署在具体的应用场景中,输入真实样本进行预测的过程。在横向联邦学习中这一阶段和传统机器学习没有太大差异,但是在纵向联邦学习场景中,由于每个用户只拥有一部分模型,推理阶段需要用户之间的合作才能完成推理过程。

目前常用的联邦学习开源项目包括 Google 的 TensorFlow1、微众银行的 FATE2、百度的 PaddleFL3 以及 OpenMinded 的 PySyft4等。其中,Google的 TensorFlow 应用最早,他们在数据不离开每个用户 本地的情况下训练了一个循环神经网络模型,之后 又将联邦学习操作进一步封装,发布了专门为联邦学习开发的框架 TensorFlow Federated(TFF)5,并提供了一组高级接口可以方便程序员实现基于联邦平均的 HFL 算法。微众银行的 FATE 是首个工业 级联邦学习框架,使用安全多方计算和同态加密等技术构建底层安全计算协议,可以支持逻辑回归、 树模型和深度学习等多种机器学习算法,与 TFF 相 比其封装程

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

a soldiers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值