A Hybrid Approach to Privacy-Preserving Federated Learning

最新推荐文章于 2024-02-28 06:02:41 发布

クズの本懐

最新推荐文章于 2024-02-28 06:02:41 发布

阅读量1.3k

点赞数 2

分类专栏：联邦学习文章标签：机器学习人工智能深度学习算法数据挖掘

本文链接：https://blog.csdn.net/qq_44026293/article/details/112062798

版权

14 篇文章 26 订阅

订阅专栏

隐私其实是一个很微妙的定义，在机器学习领域，这个定义变得更加模糊，考虑以下场景：

高德地图曾在《2016年度中国主要城市交通分析报告》中统计了各类车型车主最爱去的场所，结果显示奔驰车主住别墅，宝马车主爱购物，沃尔沃车主很文艺，…，而凯迪拉克车主偏爱去洗浴中心

那么对于以下两个场景：

但其实上述两个场景所造成的结果都是一样的（大家都知道小a喜欢去洗浴中心了）

差分隐私便是一个用于评估一个旨在保护隐私的机制（算法）所提供的隐私保证的一个框架

数学定义如下：
在这里插入图片描述
对上述公式的一个通俗的理解便是，如果能设计一种算法，让攻击者在查询100条信息和去掉任意一条信息的其他99条信息时，获得的结果是一致的，那么攻击者便没办法确定出第100条信息了，这样我们边说第100条信息对应的个体得到了隐私的保护，如下图：

在这里插入图片描述
目前为了实现这个思想的通常做法是向模型的输出中添加一些噪声，但是在FL系统中，这种办法会造成模型性能的下降

典型的两种方法是：

思想：接将原文加密，然后在密文上进行各种运算，最终得到结果的密文，形式化的表示为：
在这里插入图片描述
上述式子说明：借用同态加密技术，直接在密文上操作和在明文上操作然后加密，效果是一样的

典型的同态加密算法由下面几种：

1.RSA加密方案（乘法同态）
在这里插入图片描述
2.Paillier加密方案（加法同态）

假设参与联邦学习的有 $n$ 个节点，分别是 $P = P_1,P_2,...P_n$ ，每个节点上都有一个独立的数据集 $D_1,D_2,...,D_n$ ，现在该系统需要接受3个额外的输入：

$f_M$ : 训练的算法(SGD，SVM等)，这个算法由一系列的query组成： $Q_1,Q_2,Q_3...,Q_k$ ，一个query表示的便是该训练算法所需要的某一部分知识，因此对于每一个query $Q_s$ ，参与联邦学习的每一个节点都需要返回自身数据集上的这部分知识，用 $Q_s(D_i)$ 表示
$\epsilon$ ：可调参数
$t$ ：表示所有节点中诚实节点(honest, non-colluding parties)数量的最小值

算法流程：
在这里插入图片描述
算法解析：

首先计算 $\overline{t} = n - t + 1$ ，也就是系统中colluding节点的数量
然后对于 $f_M$ 中的每一个query $Q_s$ ，每一个节点都需要返回本身数据集上的一部分知识 $Q_s(D_i)$ 给服务器，为了保护隐私使用差分隐私技术，也就是加入了一些扰动 $noise(\epsilon,t)$ ；同时使用了同态加密技术，将返回的参数进行了加密： $r_{t,s} = Enc_{pk}(Q_s(D_i) + noise(\epsilon,t))$
服务器收到这些参数之后，进行聚合（根据运算的同态性）得到加密的全局参数 $Enc_{pk}(r_s)$
然后在节点中选择 $\overline{t}$ 个节点，向这些节点发送聚合之后的参数，节点返回对应的解码方式
服务器收到各个节点返回的解码方式之后便可以对 $Enc_{pk}(r_s)$ 进行解码，得到 $r_s$
最后用 $r_s$ 来更新全局模型 $M$