（阅读笔记）基于秘密分享和梯度选择的高效安全联邦学习

最新推荐文章于 2024-03-24 22:39:40 发布

你看见的我

最新推荐文章于 2024-03-24 22:39:40 发布

阅读量3.9k

点赞数 4

分类专栏：联邦学习

本文链接：https://blog.csdn.net/qq_42328228/article/details/109264618

版权

联邦学习专栏收录该内容

9 篇文章

订阅专栏

基于秘密分享和梯度选择的高效安全联邦学习

动机
基础知识
设计模型
- 半可信模型下的联邦训练
- 恶意模型下的联邦训练
实验结果
参考文献

动机

联邦学习中，各用户上传梯度给协作服务器以进行梯度聚合，恶意敌手可以基于梯度推测出用户的隐私信息甚至数据，因此传输梯度需要采用安全算法，例如同态加密、安全多方计算等。
用户上传所有梯度意味着大量的通信开销，为了提高协同训练效率、压缩通信开销，常结合梯度量化、梯度选择等。
服务端可能存在劫持的风险，若恶意敌手篡改聚合梯度并分发给各用户，（诚实）用户如何验证梯度是否被更改，常结合消息验证码的性质。

本文提出两种安全模型（半可信模型和恶意模型）下的联邦训练方案，半可信模型下，本文结合加法秘密共享和TOP-K梯度选择以确保梯度隐私和通信效率；恶意模型下，还存在服务器端被腐蚀的风险，在半可信模型下的基础上，本文还采用消息验证码MAC实现梯度验证。

基础知识

联邦学习

所有的用户共享同一个模型架构θ．每个用户都和参数服务器建立安全信道。

用户训练，获得并上传梯度；
服务器加法聚合梯度，并下发；
用户计算聚合梯度的均值，更新参数；
停止训练或执行下一轮训练；

TOP-K梯度选择

已知梯度向量 $\rightarrow$ 求梯度绝对值 $\rightarrow$ 降序排序 $\rightarrow$ 保留前K个最大的梯度（以及相应的索引）。

加法秘密共享

$(t - n)$ 门限秘密共享， $\le n$ ；
加法秘密共享， $t = n$ ，少于n个用户无法重构出秘密信息。
在这里插入图片描述
可加性：

消息验证码

消息验证码方案由三元组（G，Sign，Verify）,Ｇ是密钥生成算法，Sign是认证算法MAC=Sign(sk, x)，Verify是验证算法，Verify(sk, x，MAC)=Accept是否成立。

设计模型

n个服务器：ｎ≥２；m个用户：ｍ≥３；
不超过ｎ-１个服务器被腐蚀；不超过ｍ-２个用户被腐蚀；

半可信模型下的联邦训练

输入：用户私密数据集 $D_i$ 、统一的初始化模型θ；
输出：训练得到的模型θ．
① 每个用户和每个服务器之间建立安全信道；
② 每个用户在本地生成 随机数(用于生成n-1组梯度向量份额)；
③ 用户在本地训练模型，计算梯度；
④ 用户调用TOP-K梯度选择算法，选择出TOP-K 的梯度元素；
⑤ 用户针对TOP-K 梯度元素调用秘密分享，得到梯度分享份额（n份）；
⑥ 用户将索引信息（每份梯度的索引相同）和梯度份额分享上传到对应的服务器（n台）；
⑦ 服务器依照索引信息，根据秘密分享的加同态性质聚合梯度（ $\sum_m$ ）（聚合梯度索引数量≥K）；
⑧ 用户下载服务器的聚合梯度分享份额，并调用秘密恢复算法恢复聚合梯度； ⑨ 用户更新本地模型；
⑩ 进行下一轮训练跳转③，或者停止训练。

在不超过ｎ-１个服务器和ｍ-２个用户被半诚实敌手腐化的前提下，协议能够保证敌手无法获得关于诚实用户梯度值的任何私密信息。

劫持不超过ｎ-１个服务器，敌手获得不超过ｎ-１份（用户局部）梯度份额，无法恢复出完整的梯度；
劫持不超过ｍ-２个用户，敌手已知加法聚合梯度和不超过ｍ-２个用户的梯度，至多能获得多于两个诚实用户的梯度的和值，无法获得任何一个诚实用户的梯度。

恶意模型下的联邦训练

恶意模型下，恶意敌手可能篡改服务器端的梯度份额，加法聚合后，则会影响聚合梯度结果；为了防止敌手恶意篡改，即诚实用户可以检测或验证出这一行为，本文添加消息验证码MAC模块，利用梯度索引和梯度值生成每个用户的MAC以及聚合的MAC（开销与梯度总数量无关）。

注：恶意模型下的协议与半可信模型下的协议类似，仅增添MAC的认证和验证计算。

用户执行梯度选择、秘密共享、索引和梯度份额上传；
用户计算 $MAC=\sum_{ind} ind \times g[ind] \mod 2^l$ ，并上传MAC给所有服务器；
每个服务器接收到所有用户的MAC后，计算聚合的 $MAC_s = \sum_i^m MAC_i \mod 2^l$ ，将 $MAC_s$ 发送给每个用户；
服务器协同聚合梯度，并将梯度份额和索引信息（ $IND_s = ∪ IND_i$ ）分发给用户。
用户选择停止训练或继续下一轮训练。

（诚实）用户验证 $MAC_s$ ：

所有的 $MAC_s$ （n个服务器为每个用户下发n个）都相等；
用户计算 $MAC'_s = \sum_{ind \in IND_s} ind \times g_s[ind] \mod 2^l$ ， $g_s[ind]$ 表示索引ind的聚合梯度值，验证 $MAC'_s = MAC_s$ 是否成立。

公式推导：
解释：服务器端，恶意敌手有三种篡改可能：
（1）不更改梯度 $g_s$ 的份额，更改（某服务器的） $MAC_s$ 【验证1不成立，验证2成立】;
(表示仅该服务器下发的 $MAC_s$ 被篡改，因此与其他 $MAC_s$ 相比不同)
（2）更改梯度 $g_s$ 的份额，不更改 $MAC_s$ 【验证1成立，验证2不成立】
（更改梯度 $g_s$ 的份额，表示 $g_s$ 被更改，意味着 $g_s[ind]$ 被更改，即 $MAC'_s \ne MAC_s$ ）
（3）更改（某服务器的）梯度 $g_s$ 的份额和 $MAC_s$ 【验证1和2均不成立】；