题目:
0.Abstract
近年来,机器学习技术在各个领域都得到了广泛的应用。然而,在许多应用程序中,大量数据分布地存储在多个数据所有者中。同时,由于隐私问题和通信方面的限制,很难连接数据所有者之间的数据库来训练全球机器学习模型。本文提出了一种基于梯度下降的回归训练的隐私保护和非交互式联邦学习方案VANE。有了VANE,多个数据所有者能够在云的帮助下训练一个全局线性、脊或逻辑回归模型,而他们的私有本地训练数据可以得到很好的保护。具体来说,我们首先设计了一个安全的数据聚合算法,使用该算法可以将来自多个数据所有者的本地训练数据聚合并训练到一个全局模型,而不透露任何私人信息。同时,受益于我们的数据预处理方法,整个训练过程是非交互式的,即数据所有者和云之间不存在交互作用。详细的安全分析表明,VANE可以很好地保护数据所有者的本地培训数据。性能评价结果表明,我们的VANE的训练性能比现有方案快倍左右。
1.Introduction
如图所示。1、在这样种分布式场景中,仅收集小数据集的唯一数据所有者不能训练高质量的回归模型(即训练的局部回归模型不是很高的准确性)。因此,数据所有者希望在云服务提供商的帮助下协作训练一个回归模型,以便各方都可以享受到比其单独实现的精度更高的全局模型。
不幸的是,由于隐私问题和通信方面的限制,在协作回归训练之前仍存在许多挑战。一方面,数据所有者的本地培训数据通常包含个人或组织的大量私人信息。具体来说,局部训练数据可以分为两类。第一个是从个人中收集的原始数据集,其中包含大量的个人私人信息(即健康状况、收入状况等)。一旦这些数据被泄露,它可能会导致对手的计算机辅助犯罪。第二类局部训练数据是局部训练模型的参数,该模型通常包含一个组织的大量统计数据。这些数据的泄露可能会披露公司秘密(即经营条件、管理信息等)。这可能会进一步导致经济损失。另一方面,回归训练的迭代操作给数据所有者和云服务提供商之间带来了巨大的通信开销,这在实践中难以处理。因此,如何在保护多个数据所有者的敏感数据的同时实现高效的协同回归训练,近年来引起了相当大的兴趣。
为了解决上述挑战,人们提出了大量的回归训练联邦学习方案,它主要依赖于同态加密技术和梯度下降算法。具体地说,基于同态性质,现有的方案能够在密文上执行梯度下降算法来训练回归模型,这可以保护数据所有者的局部训练数据。然而,由于梯度下降是一种迭代算法,不可避免地需要进行多重交互和重复耗时的同态操作,这带来了大量的额外计算和通信开销。此外,为了安全地训练一个全局回归模型,大多数现有的方案都采用双云架构来聚合数据所有者的本地数据集,这将在现实中花费更多的资源来使用两个云。
在本文中,我们提出了一种保护隐私的非交互式回归训练联邦学习方案VANE。有了VANE,多个数据所有者能够在云服务提供商的帮助下训练一个全局回归模型,而他们的本地培训数据可以得到很好的保护。此外,在整个培训过程中,不需要数据所有者和云服务提供商之间的交互。具体来说,本文的主要贡献有三方面。
- VANE实现了非交互式回归训练和模型更新。在VANE中,首先将数据所有者的本地数据集预处理为本地训练数据,利用这些数据可以训练全局回归模型,而不需要在数据所有者和云服务提供商之间的情况下进行交互。此外,我们还设计了定期更新训练过的全局模型的策略。
- VANE在回归训练中具有隐私保护作用。基于Paillier密码系统,提出了一种单云架构下的安全数据聚合算法,该算法可以安全地聚合多个数据所有者的局部训练数据,以训练全局回归模型。因此,数据所有者的敏感信息可以得到很好的保护,并且在我们提出的方案中只需要一个云。
- 我们分析了VANE的安全性,并进行了实验来评估其性能。结果表明,利用我们改进的帕利尔密码系统,可以很好地保护数据所有者的本地训练数据。此外,我们的方案在计算成本和通信开销方面确实是有效的。
文章结构:
- 第2节:形式化模型并确定该设计目标。
- 第3节:回顾了Pailler密码系统、线性、脊和逻辑回归作为准备工作的。
- 第4节:提出了VANE
- 第5节和第6节:进行了安全性分析和性能评估。
- 第7节:回顾了一些相关工作。
- 第8节:得出结论。
2.模型、安全要求和设计目标
在本节中,形式化了系统模型、威胁模型和安全要求。然后,确定了设计目标。
![](https://img-blog.csdnimg.cn/20211006134601823.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAREvlrabliLDlpLTnp4M=,size_19,color_FFFFFF,t_70,g_se,x_16)
- TA是一个受信任的权威机构(即政府组织),它通过生成系统参数并将密钥分配给数据所有者和云服务提供商来初始化系统。
- DOs={
}是一组m个数据所有者。在我们的系统中,每个
都有自己的本地数据集。具体来说,每个DOi首先对其局部数据集进行预处理,以生成本地训练数据。然后,对本地训练数据进行加密,外包给云服务提供商,生成全局回归模型。
- CSP是一家云服务提供商,拥有丰富的存储空间和强大的计算能力(如谷歌、微软、苹果)。在我们的系统中,CSP负责聚合来自多个数据所有者的本地训练数据的密文,解密聚合的结果,并为数据所有者训练全局回归模型。此外,云服务提供商有一个测试数据集(例如,开放机器学习数据集),利用云服务提供商能够据此估计全局回归模型的质量。
2.2.威胁模型和安全要求
在我们的威胁模型中,我们认为DOs和CSP是诚实且好奇的。具体来说,在联邦回归训练过程中,CSP诚实地执行数据聚合协议并可信地训练全局回归模型,但它对DOs的局部训练数据很贪婪。此外,DOs诚实地在不被篡改的情况下外包他们加密的本地培训数据。但为了商业利益,每个DOs都对其他DOs的本地培训数据感到好奇。此外,全局回归模型应定期更新。然而,DOs的数据采集设备可能是无序,甚至一些DOs也可能处于对手的控制之下。因此,全局回归模型将被受污染的数据集所破坏。因此,在模型更新过程中也应考虑模糊数据。请注意,在联邦学习期间,可能会出现一些其他的被动或主动攻击(例如侧信道攻击和拒绝服务)。因为我们的目标是保护DOs的敏感数据以及保证全局训练模型的质量,这些攻击目前已经超出了本文的范围,并将在我们未来的工作中加以考虑。考虑到上述安全问题,应满足以下安全要求。
- 确保DOs的本地培训数据的隐私。一般来说,本地培训数据由大量的do统计数据组成,其中可能包含企业的敏感信息(即业务运营信息)。因此,在联邦回归训练和模型更新阶段,应保护DOs的局部训练数据。
- 抵制全局回归模型更新中的模糊数据。在模型更新过程中,可能会收集到一些模糊数据,污染训练数据集,直接影响全局回归模型的质量。因此,更新后,应对生成的全局模型进行评估,以抵抗模糊数据,保证其准确性。
2.3.设计目标
基于上述系统模型和安全要求,本文的目标是设计一种安全有效的回归训练联邦学习方案。具体来说,应实现以下目标。
- 保证安全和隐私保护。数据隐私和安全一直是机器学习之前不可忽视的问题。因此,VANE的一个基本目标是保护隐私,即在联邦回归训练期间,应该保证DOs本地训练数据对CSP和其他DOs的安全。
- 较低的计算量和通信开销。为了实现保护隐私的回归训练,不可避免地会产生耗时的计算(如同态操作),从而带来额外的计算开销。此外,在实践中,CSP很难处理大量的训练数据。因此,所提出的VANE应该在计算成本和通信开销方面实现高效的实现。
3.准备工作
In this section, we review Paillier cryptosystem, linear, ridge, and logistic regressions, which serve as the basis of our scheme.
![](https://img-blog.csdnimg.cn/20211008151228901.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAREvlrabliLDlpLTnp4M=,size_20,color_FFFFFF,t_70,g_se,x_16)
![](https://img-blog.csdnimg.cn/20211008153256206.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAREvlrabliLDlpLTnp4M=,size_20,color_FFFFFF,t_70,g_se,x_16)
3.3. Ridge regression
与线性回归相比,岭回归在损失函数中引入一个l2范数正则化项来惩罚大回归系数,有效缓解了线性回归中的过拟合问题。岭回归的损失函数可以表示为
4.提出的隐私保护方案
在本节中,我们将提出我们的VANE方案。具体来说,我们首先介绍了VANE的主要思想。然后,给出了安全数据聚合算法和对VANE的详细描述。此外,我们从VANE中提取了安全数据聚合训练(SDAT)算法,并仔细证明了其正确性。
![](https://img-blog.csdnimg.cn/20211008161858635.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAREvlrabliLDlpLTnp4M=,size_20,color_FFFFFF,t_70,g_se,x_16)
基于这种转换,在VANE中,每个DO都可以通过计算将其局部数据集局部预处理成一个矩阵作为本地训练数据
此外,通过聚合来自多个数据所有者的矩阵,CSP能够生成全局训练数据来执行梯度下降算法,而不需要局部梯度。因此,可以对全局回归模型进行非交互式训练,从而显著降低了联邦回归训练中的计算成本和通信开销。
此外,为了保护DOs的局部训练数据,我们提出了一种单云架构下的安全数据聚合算法,如下介绍。
4.2.安全的数据聚合算法
在本节中,我们修改了Paillier加密系统,并提出了我们的安全数据聚合算法,该算法由以下四个函数组成。
4.3.描述我们提出的方案
在本节中,我们详细介绍了我们提出的方案,它主要包括四个阶段:1)系统初始化;2)本地培训数据生成与加密;3)安全数据聚合与培训;4)模型更新和估计。概述如图3所示.
首先,TA通过将密钥和系统参数分配给DOs和CSP来引导系统。然后,每个DOi对其局部数据集进行预处理,计算加密的局部训练数据,由CSP进一步聚合,生成全局训练数据。最后,CSP对全局回归模型进行训练并评估其准确性。为了更清楚地描述VANE,我们在表1中给出了使用的符号。
8.总结
本文提出了一种安全的、非交互式的回归训练联邦学习方案,称为VANE。基于所提出的安全数据聚合算法,在VANE中,CSP可以在密文上安全地聚合从多个do中获得的局部训练数据,并根据聚合结果训练一个全局回归模型。在整个培训过程中,DOs和CSP之间不需要交互。此外,该方案还通过数据预处理大大提高了安全联邦回归训练的效率。详细的安全分析显示了其安全性强度和隐私保护能力,并进行了大量的实验验证了其有效性。