联邦学习（电子工业出版社）——读书笔记（1）

最新推荐文章于 2023-01-29 11:52:50 发布

超威橘猫

最新推荐文章于 2023-01-29 11:52:50 发布

阅读量675

点赞数

分类专栏：联邦学习（电子工业出版社）读书笔记文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/IEEE802_11/article/details/109306132

版权

联邦学习（电子工业出版社）读书笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

本书于2020年9月上市，本文为其中前两章的总结，分别介绍了联邦学习的概述以及隐私、安全及机器学习。本文旨在为读者提供一个书中内容简短的总结，本书的信息详见文末。

第一章

联邦学习不一定是星形网络，也可能是分布式（可能去中心化）
联邦学习可以是模型训练也可以是模型推理，后者指的是大家一起预测，然后通过联邦平均的方法获得总和的预测结果
联邦学习模型相关的信息能够以加密方式在各方之间进行传输和交换，并且需要保证任何一个参与者都不能推测出其他方的原始数据
训练停止条件：模型收敛、达到最大迭代次数或者达到最长训练时间

联邦学习分为横向联邦学习、纵向联邦学习、联邦迁移学习

横向联邦学习适用于联邦学习的参与方的数据有重叠的数据特征，即数据特征在参与方之间是对齐的，但是参与方拥有的数据样本是不同的

纵向联邦学习适用于联邦学习参与方的训练数据有重叠的数据样本，即参与方之间的数据样本是对齐的，但是在数据特征上有所不同

联邦迁移学习适用于参与方的数据样本和数据特征重叠都很少的情况

文中[1,27,52,53]提供了几篇综述
联邦学习的研究工作主要着眼于提升安全性以及处理统计学上的难题
安全多方计算协议作为密码学的一个子领域，其允许多个数据所有者在互不信任的情况下进行协同计算，输出计算结果，并保证任何一方均无法得到除应得的计算结果之外的其他任何信息。换句话说，MPC技术可以获取数据使用价值，却不泄露原始数据内容
目前还没有很好地对抗恶意干扰的方法（感觉分布式都会存在这个问题）
对现有的机器学习模型在联邦学习场景下进行讨论，已经成了一个新的研究方向（比如与将所有数据集中在云端的原始方法进行性能对比）
系统的通信开销，滞留问题（stragglers）和容错性，分析与优化
将联邦学习用于其他领域，如CV
联邦学习专用的开源平台
Federated AI Technology Enabler (FATE)
TensorFlow Federated (TFF)
TensorFlow-Encrypted
coMind
Horovod
OpenMinde/PySyft

第二章

在安全机器学习中，敌手被假设违反了机器学习系统的完整性和可用性（破坏模型的正确性）
在PPML（面向隐私保护的机器学习）中，敌手被假设违反了机器学习系统的隐私性和机密性（窃取私密信息）
安全多方计算，三种不同框架
不经意传输
秘密共享
阈值同态加密

不经意传输：接收方不能得知关于数据库的任何其他消息，发送方也不能了解关于接收方i选择的任何信息。

Bellare-Micali工作原理：接收方向发送方发送两个公钥。接收方只拥有与两个公钥之一对应的一个私钥，并且发送方不知道接收方有哪一个公钥的密钥。之后，发送方用收到的两个公钥分别对它们对应的两个消息加密，并将密文发送给接收方。最后，接收方使用私有密钥解密目标密文。

姚氏混淆电路：将电路分解为产生阶段和求值阶段。每一方都负责一个阶段，而在每一阶段中电路都被加密处理，所以任何一方都不能从其他方获取信息，但他们仍可以根据电路获取结果。

秘密共享

秘密共享是指通过将秘密值分割为随机多份，并将这些份（或称共享内容）分发给不同方来隐藏秘密值的一种概念。因此，每一方只能拥有一个通过共享得到的值，即秘密值的一小部分。根据具体的使用场合，需要所有或一定数量的共享数值来重新构造原始的秘密值

有算数秘密共享（书中重点介绍）、Shamir秘密共享、二进制秘密共享（与前文的不经意传输密切相关）

同态加密

同态加密逐渐被认为是在PPML中实现安全多方计算的一种可行方法

作为一种不需要对密文进行解密的密文计算解决方案，同态加密的概念首先由Rivest等人在1978年提出[119]。（最早的同态加密）

文献[120]允许对密文进行加法运算，但只能对单一位进行加密

2005年，Boneh等人发明了一种允许无限次数的加法运算和一次乘法运算的可证安全加密系统

2009年，Gentry等人发明了一种支持无限次数的加法运算和乘法运算的同态加密方法

同态加密三类：部分同态加密(PHE)、全同态加密(FHE)和些许同态加密(SHE)

部分同态加密(PHE)：一种群同态，无线次数运算，但只支持一种运算

些许同态加密(SHE)：些许同态加密方法指一同态加密方法中的一些运算操作（如加法和乘法）只能执行有限次。SHE方法为了安全性，使用了噪声数据，当噪声量超过一个上限值后，解密操作就不能得出正确结果了。这就是为什么绝大多数的SHE方法会要求限制计算操作的次数

全同态加密(FHE)：全同态加密允许对密文进行无限次数的加法运算和乘法运算，要实现任意的函数计算，加法和乘法操作是唯二所需要的操作。目前的FHE建立在SHE的基础上，并且通过实现代价高昂的自助法(bootstrap)操作实现。由于自助法的代价高昂，FHE方案十分缓慢且在实践中往往不优于传统的安全多方计算方法。

差分隐私

差分隐私的中心思想是，当敌手试图从数据库中查询个体信息时将其混淆，使得敌手无法从查询结果中辨别个体级别的敏感性

它提供了一种信息理论安全性保障，即函数的输出结果对数据集中的任何特定记录都不敏感

差分隐私在向数据引入噪声的同时，权衡了实用性和隐私性

分类：一种是根据函数的敏感性增加噪声，一种是根据离散值的指数分布选择噪声

实值函数的敏感性可以表示为由于添加或删除单个样本，函数值可能发生变化的最大程度

注：此笔记总结的原书为：联邦学习（封面见下图）