联邦学习笔记（四）《Advances and Open Problems in Federated Learning》

最新推荐文章于 2024-12-08 15:14:42 发布

言思卿

最新推荐文章于 2024-12-08 15:14:42 发布

阅读量1.5k

点赞数 4

分类专栏：联邦学习隐私保护人工智能

本文链接：https://blog.csdn.net/Apiao9/article/details/114853964

版权

联邦学习同时被 3 个专栏收录

4 篇文章

订阅专栏

隐私保护

3 篇文章

订阅专栏

人工智能

1 篇文章

订阅专栏

4.1 需要提供保护的各种威胁模型

4.2 核心工具和技术

4.3 可信服务器存在时，对抗客户端/分析师隐私保护方面存在的问题和挑战

4.4 针对恶意server的保护

4.5 user perception

联邦学习将整个机器学习工作流程模块化分解。原始数据不离开设备——数据最小化，只将模型更新（梯度更新）发送至中央服务器临时保存，提供一定程度的隐私。
隐私系统期望属性：所有参与者的易用性、最终用户体验的质量和公平性、通信和计算资源的明智使用、抵御攻击和失败的能力等等。

4.1 需要提供保护的各种威胁模型

隐私处理的第一步是明确不同行为者及其角色，不同角色可能会具有不同的隐私保护程度，但这种保证可能仅适用于对其能力有特定限制的对手。P38 针对不同行为者的攻击模型。
达到期望属性，需要将多种工具和技术组合成端到端系统：可通过分层策略保护系统相同部分；也可使用不同策略保护系统不同部分。
提倡构建这样的联邦系统：当某个技术不能提供预期的隐私贡献时，隐私属性优雅降级——深度隐私（“Privacy in Depth）

4.2 核心工具和技术

对于FL计算的目标（分析师获取结果——对数据集上函数f的评估），有三个待解决的隐私方面：

f如何计算以及中间结果信息流是什么——影响对不同行为者的敏感性（MPC,TEEs,信息流设计）
考虑有多少关于客户的信息是通过f本身的结果透露给分析师和其他参与者的（DP）
可验证性问题：客户端或服务器向系统中其他人证明已忠实执行期望行为（远程证明,零知识证明）

P40 不同隐私技术的总结表

4.2.1 安全计算

安全多方计算：

密码学的一个分支，让一组参与者计算其私密输入的约定函数，只向每个参与者显示预期输出，目前研究从纯理论转移到工业应用技术中，其发展归因于底层原语的发展，如不经意传输方案、同态加密。

运算通常是在有限域上进行的，这在表示实数时会带来困难。一种常见的方法是ML模型及其训练程序，通过对标准化的量进行操作并依靠量化来确保(过)欠流得到控制。

同态加密，允许直接在密文上执行数学运算，而无需进行解密，它是启用MPC的强大工具，使得参与者在隐藏值的同时计算值的函数。

问题：该谁持有密钥？

非合作外部方？由于选择密文攻击，经常更换密钥

分布式加密方案？密钥在各方间分发

可信执行环境：

将联邦学习过程的一部分移动到云中可信环境中，其代码可被证明和验证。提供三个关键的facilities建立信任：机密性、完整性、证明（measurement/attestation）

限制：

只提供对CPU资源的访问，不允许GPU或ML处理器

暂时无法完全排除所有类型的旁路攻击

实际中的其他问题：

运行时的内存访问模式可能会暴露它正在计算的数据相关信息，应将代码构造为数据不经意过程
系统架构师需要提供一种方法来证明该二进制文件具有所需的隐私属性，这可能需要使用开源代码的可复制过程来构建该二进制文件
如何在安全区域、云计算资源和客户端设备之间划分联邦学习功能仍然是一个未决问题。

当关注特定功能时，一些可能的优化方案：

安全聚合

安全洗牌

私密信息检索（PIR）

4.2.2 隐私保护泄露

用于量化和限制个人信息泄露的最先进的模型——差分隐私DP。用户级差分隐私——由原始数据集通过添加/减去单个客户端的所有记录而获得
联邦学习中，由可信的curator实施扰动操作，再将结果发布给分析师/工程师。然而我们尽可能地希望能够减少对第三方的信任需求，下面是几种方法：

本地差分隐私：数据量过大，效用比中心式DP低
分布式差分隐私：可恢复部分效用。在分布式差分隐私模型中，客户机首先计算并编码一个最小的（特定于应用程序的）报告，然后将编码的报告发送到一个安全的计算函数，其输出对于中心服务器来说是可用的且满足隐私要求。编码是为了在客户端维持隐私。分布式差分隐私有两种实现方式：基于安全聚合和安全洗牌。
混合差分隐私

4.2.3 可证明性 verifiability

Verifiable computation 使得一方能够向另一方证明它已经忠实地对其数据执行了期望的行为，而不会损害数据的潜在保密性。相关术语：checking computations , certified computation, delegating computations, verifiable computing
下列技术可用于提供可证明性：

Zero-knowledge proofs（ZKPs）：显著特性（完整性、可靠性、零知识）

Trusted execution environment and remote attestation

4.3 可信服务器存在时，对抗客户端/分析师隐私保护方面存在的问题和挑战

4.3.1 审计迭代和最终模型

为了提供对外部对手的严格保护，首先考虑可以从最终模型和中间迭代中学到什么。建议量化联邦学习模型对特定攻击的敏感性，常见方法是用代理数据集模拟攻击，更安全的方法是确定模拟攻击敏感度的最坏条件上限。
联合学习框架为攻击、攻击量化、防御提供了独特的环境，可以设计新的易于处理的方法来量化模型的平均情况或最坏情况下的攻击敏感度。

4.3.2 中心差分隐私训练

可在FL的迭代训练过程中使用用户级差分隐私，为了跟踪各轮总体预算，可使用advanced composition theorems or the analytical moments accountant method
弄清如何adaptively bound the contributions of users and clip the model parameters仍是一个有趣的研究方向
用户级差分隐私中，当客户端贡献数量变化很大时，准确性和隐私性之间的权衡问题
区分能够看到中间迭代的恶意客户端和只能看到最终模型的恶意分析师，是重要的。
Privacy amplification for non-uniform device sampling procedures

随机性的来源：使用熵来播种一个密码安全的伪随机数发生器(PRNG)，并根据需要使用PRNG的输出。

4.3.3 隐藏迭代

为了对客户端隐藏迭代，每个客户端可以在一个提供保密特性的TEE中运行他们的本地部分的联邦学习，类似的保护可以在MPC模式下实现

4.3.4 Repeated Analyses over Evolving Data

对目前看到的数据是正确的
准确地预测未来的数据到达。

在没有隐私问题的情况下，一旦新数据到达，分析师可以简单地重新训练学习的模型，以确保始终最大的准确性。然而，由于隐私保证随着关于相同数据的附加信息的发布而降低这些更新不能频繁，以仍然保持隐私和整体分析的准确性。

动态数据库和时间序列数据的差异隐私的最新进展，都假设存在一个可信的馆长，他可以在原始数据在线时看到它们，并发布动态更新的统计数据。

一些悬而未决的问题：

分析师应该如何在有新数据的情况下私下更新FL模型？与鲁棒性有关
解决隐私构成问题的一种方法是生成合成数据，可以无限期使用，而不会导致额外的隐私损失。
检测时间序列数据或动态数据库DP是否可以扩展至联邦学习环境？
如何在联邦模型中查询时间序列数据？

4.3.5 防止模型被盗窃或误用

即使模型参数本身被成功隐藏，研究表明，在许多情况下，它们可以由对手重建。

4.4 针对恶意server的保护

4.4.1 Challenges: Communication Channels, Sybil Attacks, and Selection

在跨设备FL环境中，客户端与服务器通信，且在连接和带宽方面可能受到限制，这对信任模型提出了具体的要求。而且，暂时没有客户端独立于服务器彼此建立安全信道的明确办法，因此在实际环境中，假设服务器诚实是必须的。一个替代方法是加入一个额外可信任的第三方。

能控制服务器的恶意对手可以模拟大量假冒设备，破坏了MPC的常见假设，即使协议本身是安全的，但是存在风险——对手知道或控制敌对客户端的模型更新，可能会破坏剩余客户端的隐私。在TEEs中shuffler也可能遭受sybil攻击——诚实用户输入与假冒用户输入混在一起，对手可以直接从混在一起的输出中识别出诚实用户的值。

注意，也存在客户端之间建立证明的情况，通过安全多方计算/分布式差分隐私。即使对手控制模型更新，也可以在参与者间建立隐私。

4.4.2 现有方案的限制

隐私目标：量化并可证明地限制服务器重构单个客户端输入数据的能力。

本地差分隐私：

在保持可用性的同时，实现本地差分隐私尤其是在高维数据环境下，非常具有挑战性。困难在于引入噪声的尺度需与数据尺度相当，因此需要与用户合并报告。若想获得与中心式相当的可用性，需要相对较大的用户群或更多的隐私预算选择。

混合差分隐私：

没有提供用户本地添加噪声的隐私放大；目前应用领域和算法利用尚不明确

洗牌模型：

能够从本地添加噪声中放大隐私，但存在两个缺点

1. 需要一个可信中介

2. 差分隐私保证随敌对用户成比例降低，这对FL环境是重要的

安全聚合：

虽然是为联邦学习定制的具有很强隐私保证的协议，但存在以下限制：

要求服务器半诚实
允许服务器每轮迭代都可看到聚合
对于稀疏向量聚合无效
缺乏the ability to enforce well-formedness of client inputs

4.4.3 分布式差分隐私训练

分布式差分隐私的三个性能指标：准确性、隐私、通信
重要目标：确定三个参数之间可能的权衡

安全洗牌的权衡：

两个基本任务的权衡：聚合和频率估计

开放性问题：1. pure差分隐私 2. 多消息设置中变量选择时的三者权衡

安全聚合的权衡：

根本问题是，确定最佳算法A，该算法在聚合时实现DP，同时满足固定的通信预算

算法A应满足一定限制

Privacy account：

中心模型中，常使用二次抽样高斯机制实现隐私保护，使用moments accountant method严格跟踪隐私预算；但在分布式模型中，由于有限精度问题，高斯机制不能再被使用。虽然离散性的噪声分布可以解决有限精度问题，但不使用于moments accountant method。

问题：研究为离散噪声分布定制的隐私accounting技术。

解决客户端退出的问题：

要求分布式噪声生成机制对客户端退出的情况具有鲁棒性，简单的增加客户端噪声的方式可能会在用户报告较多时导致过多的噪音。对于此问题缺乏更有效的方案。
瓶颈：客户端数量不足够

新的信任模型：

利用联邦学习的特性（服务器可信需验证），开发更为精确且现实的信任模型。

4.4.4 Preserving Privacy While Training Sub-Models

每个客户可能具有仅与被训练的完整模型的相对小部分相关的本地数据
在部署联合学习时，通信效率往往很重要，我们是否可以实现通信高效的子模型培训
是否有可能实现通信高效的子模型联合学习，同时保持客户端子模型选择的私密性？

PIR进行私有子模型下载，使用针对稀疏向量优化的安全聚合的变体来聚合模型更新

Open problems in this area include characterizing the sparsity regimes associated with sub-model training problems of practical interest and developing of sparse secure aggregation techniques that are communication efficient in these sparsity regimes.
是否有一个分布式差分隐私保持模型更新的稀疏性