联邦学习相关论文综述

最新推荐文章于 2024-06-03 19:39:09 发布

沐念丶

最新推荐文章于 2024-06-03 19:39:09 发布

阅读量1.1k

点赞数 1

分类专栏： Python 文章标签：机器学习联邦学习

本文链接：https://blog.csdn.net/ZongXS/article/details/116193753

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

联邦学习存在的威胁与挑战

通信效率
联邦学习隐私保护研究进展
信任与激励

通信效率

在联邦学习网络中，服务器与远程客户端之间往往需要进行不断的通信来交互模型更新信息，动辄万计的客户端很容易对通信网络造成巨大的带宽负担。通常，全局模型训练时间分为数据处理时间和通信传输时间两部分，而随着计算机设备算力的提升，数据处理时间不断降低，联邦学习的通信传输效率变成限制其训练速度的主要因素。
联邦学习与分布式计算的区别是联邦学习的数据集来自各个终端用户，这些用户产生的数据特征往往呈非独立同分布(Non-IID)。Non-IID 指的是在概率统计理论中，各数据集中的随机变量不服从同一分布，即对于不同的客户端 i 和 j，它们的数据集概率分布pi不等于pj。而传统的分布式框架算法只有在处理 IID 数据时表现良好，而在处理 Non-IID 数据时会造成训练过程难以收敛、通信轮数过多等问题。另外，在互联网环境中，大量本地模型更新的上传会导致中心服务器通信开销过大，无法满足正常的应用要求，同时相近几次模型更新中可能会包含许多重复更新或者与全局模型不相关的更新。
综上，联邦学习的通信效率优化具有重要的研究意义。通常改进方案有两个目标：(1)减少每轮通信传输的数据大小；(2)减少模型训练的总轮数。目前，改进通信效率方案主要是通过优化联邦学习框架算法、压缩模型更新和采用分层分级的训练架构。这些方法一定限度上提升了联邦学习模型训练速度和减小了数据通信量，对联邦学习技术的完善具有重大意义，但是现阶段仍然存在许多难以解决的问题。例如，优化算法在处理Non-IID 数据时相对于处理 IID 数据的时间开销成倍增长；压缩算法虽然能够显著降低通信数据大小，但同时会严重影响模型精度，在通信效率和模型精度之间的平衡成为挑战；分层分级的训练架构也不适合于所有的联邦学习场景，有时这种物理结构并不存在。

联邦学习隐私保护研究进展

联邦学习作为新一代隐私保护技术的前沿领域，通过源数据不出本地而仅交互模型更新（如梯度信息）的方式来保护用户的敏感数据，开创了数据安全的新范式。理想情况下，联邦学习中客户端通过训练源数据上传本地模型，服务器仅仅负责聚合和分发每轮迭代形成的全局模型。然而，在真实的网络环境中，模型反演攻击、成员推理攻击、模型推理攻击层出不穷，参与训练的客户端动机难以判断，中心服务器的可信程度也难以保证，仅仅通过模型更新来保护用户隐私的方式显然是不够的。
最近的研究表明，梯度信息会泄露用户的隐私数据，攻击者可以通过客户端上传的梯度信息间接推理出标签信息和数据集的成员信息。Carlini 等从训练用户语言数据的递归神经网络中提取出了用户的敏感数据，如特定的银行卡号。Fredrikson 等研究了如何从模型信息中窃取数据隐私，并通过药量预测实验实现了对线性回归模型的反演攻击，获得了患者的敏感信息。Hitaj 等用生成对抗网络（GAN）对模型聚合发起攻击，实验结果表明，恶意客户端能够通过产生相似的本地模型更新来窃取用户数据隐私。Geiping 等证明了从梯度信息重建输入数的可行性与深度网络架构无关，将一批输入图像用余弦相似度和对抗攻击的方法恢复出来。
联邦学习主要存在 3 种威胁：(1)恶意客户端修改模型更新，破坏全局模型聚合；(2)恶意分析者通过对模型更新信息的分析推测源数据隐私信息；(3)恶意服务器企图获得客户端的源数据。针对以上威胁，目前增强联邦学习隐私安全性的主流方案是与经典机器学习隐私保护技术结合，包括差分隐私、安全多方计算、同态加密等技术。大量的研究表明，联邦学习与这些隐私保护技术的结合能够提供足够强的安全性，但仍然存在一些问题需要解决。例如，与差分隐私的结合在较少客户端参与的联邦学习中模型精度受到较大的影响，虽然在大量客户端参与时能够通过模型加权平均抵消噪声误差，但算法中包含的大量超参数仍然限制了进一步的应用[19-20] ；与
安全多方计算和同态加密技术的结合能够提供无损全局模型的构建，但同时会造成较大的通信开销，如何平衡通信负担和模型安全是一个相当大的挑战。

信任与激励

联邦学习为现代社会建立了一个数据安全共享的架构，在未来万物互联的场景中，不同的机构、部门之间的数据联合会形成一个巨大的联邦学习联盟，旨在构建基于大数据和多特征融合的智能分析决策模型。但是数据联盟需要吸引大量客户端参与到训练过程中，没有高效的激励机制很难吸引足够的训练数据，无法保证最终的智能模型质量；另外，联邦学习并没有针对客户端的信任机制，对于客户端的信誉没有统一的分数评价，严重影响了对优质客户端的选择，从而导致全局模型精度降低。
针对这个问题，学术界通过结合区块链技术做出了大量研究。区块链是比特币的底层技术，它作为一种安全可靠、不可篡改和支持查询验证的分布式分类账，被应用于解决各类数据安全储存和信任问题。联邦学习通过集成区块链能够以一种安全、高度抗中断和可审计的方式记录联邦学习的模型更新，为系统框架提供可问责性和不可否认性。同时，区块链的激励机制作为一种经济回报能够根据构建模型时客户端的贡献给予相应的奖励。