联邦学习安全与隐私保护

一、FL隐私保护方法

1.1 加密方法

通过将明文编码为密文的方式,只允许特定人员解码,为数据隐私保护提供了有效手段,但往往需要较大的计算开销,较难应用于实际场景中

安全多方计算

SMC研究的是协同计算场景下,参与各方如何在不共享数据,且无可信第三方的情况下完成计算任务的问题。它能提供一套完备的零知识证明,确保每个参与者除了输出和自己的输入之外无法获取到其他任何信息

同态加密

1.HE要求密文可以直接进行代数运算(一般为加法、乘法运算),所得结果须与使用明文运算后再加密结果一致。加法/乘法同态加密要求加密算法支持加法/乘法运算,而全同态加密(FHE)要求算法同时支持加法与乘法两者

2.同态加密是一种有效的加密方式,它的特性在于不需要直接访问明文,对密文的操作结果解密后等于明文的操作结果。以加性同态加密为例,即有

\begin{array}{c} \mathrm{Enc}_{\mathrm{pk}}\left(m_{1}\right)=c_{1}, \mathrm{Enc}_{\mathrm{pk}}\left(m_{2}\right)=c_{2} \\ \operatorname{Dec}_{\mathrm{sk}}\left(c_{1} \circ c_{2}\right)=m_{1}+m_{2} \end{array}

其中,加密方案采用公钥加法同态加密,(pk,sk)是一对公私钥,\circ表示密文上某种特定的运算,如乘法或加法运算

秘密共享

秘密共享主要用于保护参与者的重要信息,并防止信息丢失、破坏和篡改

主要思想:是将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与者管理,单个参与者无法恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息

例如:(n, t)秘密共享是指将一个秘密信息s分成n个碎片,交由n个不同的参与方保管,使得其中任意t个或t个以上的碎片可以重构出秘密s,而当碎片数量少于t时无法获得任何关于s的有用信息

1.2 数据扰动类方法

相对轻量化(可以在计算能力相对较弱的设备上也可以轻松实现,适用于B2C),指的是在数据中添加随机化噪声,或使用归纳方法掩盖数据的某些敏感属性,保证攻击者无法根据输出的不同来推测个体的敏感信息,但会对模型的准确性造成影响,因此需要再三权衡隐私性与可用性的关系

k-匿名

多用于数据发布领域,通过概括、泛化、隐匿等方式,使发布数据中的至少七条记录在准标识符上不可区分。而由于联邦学习要求参与者在每一次合法申请时都能获取到完整、具体的模型参数,与k-匿名方法相悖,因此该方法很难应用于联邦学习

差分隐私

邻近数据集:两个数据集有且只有一个数据不同

给定两个邻近数据集D和D`:\operatorname{Pr}\{A(D)=O\} \leq e^{\varepsilon}\left[\operatorname{Pr}\left\{A\left(D^{\prime}\right)=O\right\}\right.,其中A为随机算法(给定一个输入,经过算法后得出的输出不是固定值,而是服从某一分布的随机输出)。如果将该算法应用于任意两个相邻数据集,得到输出O的概率是相似的(都小于\varepsilon),那么可以得出该算法可以达到差分隐私的效果,称算法A满足\varepsilon-差分隐私,ε越小,算法提供更高等级的隐私保护,但在一定程度上会降低准确性

使用随机应答方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值,从而使第三方无法根据输出的变化判断单条记录的更改或增删,被认为是目前基于扰动的隐私保护方法中安全级别最高的方法

  • 本地差分隐私:对数据的训练以及对隐私的保护过程全部在客户端就可以实现,是基于不可信第三方的前提下进行的,具体是将数据的隐私化处理过程转移到每个用户上,使得用户能够单独地处理和保护个人数据,以达到保护隐私的目的
  • 中心化差分隐私:差分隐私方法最初被提出时大多采用中心化的形式,通过一个可信的第三方数据收集者汇总数据,并对数据集进行扰动从而实现差分隐私,可以被视为一个可信的聚合器,它负责向聚合的局部模型参数中添加噪声,然后在更新的时候再去掉噪声,这种来回两过程可以达到保护隐私的
     
  • 分布式差分隐私:指的是在若干个可信中间节点上先对部分用户发送的数据进行聚合并实施隐私保护,然后传输加密或扰动后的数据到服务器端,确保服务器端只能得到聚合结果而无法得到数据,通过对运行相同噪声机制的参与者进行求和实现整体加性噪声的机制,再结合密码技术,达到既不需要可信的信息收集数据库,又能达到良好的效果
  • 混合差分隐私:通过用户对服务器信任关系的不同对用户进行分类。举例而言,最不信任服务器的用户可以使用最低隐私预算的本地化差分隐私,而最信任服务器的用户甚至可以直接发送原始参数;服务器也将根据用户的信任关系对数据进行不同程度的处理

二、FL隐私安全问题

FL中上传参数或梯度本质上就是对原始数据按照一定规则进行映射,几乎包含数据的所有信息,已有许多攻击模型证实,可以从模型参数或梯度中反推出原始数据的部分甚至全部信息

  • 重构攻击:通过逆向学习的方式重构部分甚至全部的原始数据
  • 推理攻击:通过逆向学习来重构数据,但不同于重构攻击重视还原数据本身(往往精度不高),推理攻击更关心还原数据中的某一项具体信息(往往具有较高精度),如成员或属性推理攻击
  • 窃取攻击:指的是攻击者主动对模型注入后门代码或是受污染的数据,直接获取或学习其他参与者的数据

联邦学习隐私保护措施对比

保护技术特性
中心化差分隐私聚合和更新分别添加与删除噪声来达到保护隐私的目的,但需要一个可信的数据收集库
本地化差分隐私将数据的隐私化处理过程转移到每个用户上,使得用户能够单独地处理和保护个人数据,但这样会影响精度
分布式差分隐私通过结合密码学技术来改善本地差分隐私和中心差分隐私
全同态加密对隐私有绝对的保护,但其计算复杂度非常高
部分同态加密只对梯度进行加密处理,可以很大程度上降低通信成本,实用性强
秘密共享典型的密钥分发机制,在联邦学习中应用成熟
可验证秘密共享通过引入可验证机制,进一步提高秘密共享的安全性,且能与其他技术结合使用

三、联邦学习安全问题

3.1 投毒攻击

主要是指在训练或再训练过程中,恶意的参与者通过攻击训练数据集来操纵机器学习模型的预测

  • 数据投毒:指攻击者通过对训练集中的样本进行污染,如添加错误的标签或有偏差的数据,降低数据的质量,从而影响最后训练出来的模型,破坏其可用性或完整性
  • 模型投毒:不同于数据投毒,攻击者不直接对训练数据进行操作,而是发送错误的参数或损坏的模型来破坏全局聚合期间的学习过程;

3.2 对抗攻击

指恶意构造输入样本,导致模型以高置信度输出错误结果

对抗样本:通过在原始样本中添加扰动而产生的输入样本

1.根据攻击环境,对抗攻击可分为

  • 白盒攻击:知道机器学习模型中的参数与内部结构,攻击者可以把所需的干扰看作一个优化问题计算出来
  • 黑盒攻击:攻击者不知道任何模型的信息,只能跟模型互动,给模型提供输入然后观察它的输出

2.根据攻击目的分为:目标攻击非目标攻击

3.根据干扰的强度大小分为:无穷范数攻击、二范数攻击和零范数攻击

3.3 隐私泄露问题

恶意的参与方可以从共享的参数中推理出其他参与方的敏感信息

参与方的隐私安全通常易受到两种攻击

  1. 模型提取攻击:攻击者试图窃取模型的参数和超参数,破坏模型的保密性。比如恶意的参与方可以对共享模型进行预测查询,然后提取训练完成的模型
  2. 模型逆向攻击:攻击者试图从训练完成的模型中获取训练数据集的统计信息,从而获取用户的隐私信息,推断出的训练集的信息,既可以是某个成员是否包含在训练集中,也可以是训练集的一些统计特性,根据这两种训练集信息,可细分为
    1. 成员推理攻击
    2. 属性推理攻击

四、防御措施

4.1 投毒攻击防御

数据投毒防御:应从保护数据的角度出发

  1. 一方面,在训练模型之前应当保证数据来源的真实性与可靠性
  2. 另一方面,在使用不能保证安全性的数据之前,应当进行相应的检测以保证数据完整性不受篡改

模型投毒防御:假定服务器是可信的,那么防御的重点在于对恶意参与方的识别以及对错误更新参数的检测

  • 源信息检测:使用起源和转换等上下文信息来检测训练集中的有毒样本点。该检测方法通过将整个训练集分为多部分,比较各部分数据训练出的效果,从而识别出哪一部分的数据表现最为异常
  • 鲁棒低秩矩阵逼近和鲁棒主成分回归:提供了强大的性能保证
  • 参数检测:准确度检测和直接比较各个参与方提交的更新参数之间的数值统计差异 

4.2 对抗攻击防御

  1. 对抗训练:即将真实的样本和对抗样本一起作为训练集,来训练出最后的模型
  2. 数据增强:是对抗攻击的一种扩充。在训练过程中不可能穷举所有对抗样本,但通过对原始数据集中的数据进行随机化处理可以增强模型的泛化能力,如对图片翻转剪裁等
  3. 数据处理:采取与数据增强不同的方式,数据处理技术是指对样本进行降噪处理,以减小对抗样本的干扰
  4. 数据压缩:是一种特殊的数据处理方法,专门针对图像训练过程,即使用压缩后的图片进行训练
  5. 防御蒸馏:主要思想是先利用训练集得到一个模型,然后再通过模型提取从原来的模型“蒸馏”提纯出另外一个模型,从而降低模型的复杂度
  6. 梯度正则化:指在训练模型的目标函数上对输入与输出的变化进行惩罚,从而限制了输入的扰动对于预测结果的影响
  7. 对抗样本检测:是一种常用的防御措施。若能区分出对抗样本与正常样本的不同之处,然后以较高精度检测出对抗样本,就能较好地防范对抗攻击
  8. 生成式对抗网络( generative adversarial net,GAN):是一种机器学习模型,由两个模块组成。一个是生成模块 G,利用接收到的随机噪声生成虚假样本,另一个是判别模块 D,用以判断出某样本是否为G生成的虚假样本

4.3 隐私泄露防御

  1. 差分隐私
  2. 秘密共享
  3. 同态加密
  4. 混合防御:多种防御技术结合起来
防御类型防御措施特点
防御数据中毒检测上下文信息通过与之前的数据比较来检测数据点
最小化图像总方差,HGD通过压缩、降噪和减少全局方差等方法来处理数据进而达到保护数据的目的
对抗训练将真实样本和对抗样本放在一起作为训练集进行训练
防御模型攻击检测错误的模型更新直接或间接使用模型参数之间的数值差异来检测异常模型
安全聚合使用不同的聚合算法来保护模型参数
推理攻击模型堆叠、DNN将多种模型进行集成或者组合来增加模型的复杂度
服务器漏洞TEE通过硬件隔离的技术来保护隐私
安全多方计算安全联合多参与方完成某种协同计算

友情链接:http://xqnav.top/ 

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

learning-striving

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值