隐私计算之联邦学习 | 文末可获取联邦学习最新研究报告

IT转型指北

已于 2022-03-18 10:36:35 修改

阅读量4.3k

点赞数

文章标签：人工智能机器学习数据安全

于 2022-02-25 22:29:31 首次发布

本文链接：https://blog.csdn.net/weixin_33973583/article/details/123142444

版权

2019年党的十九届四中全会决议中，首次增列“数据”为生产要素。纵观社会经济发展，从以土地、劳动力为生产要素的农业经济时代，到以资本、技术为生产要素的工业经济时代，演进至今以数据生产要素为核心推动力的数字经济时代。目前仍有三大因素制约数据流通与协作。一是“数据孤岛”现象，平台经济导致的马太效应，数据存在垄断和集中，形成孤岛。二是全球数据合规监管日趋严格；三是隐私泄露事件频发导致信任鸿沟。但数据价值挖掘和隐私保护并非一场零和博弈，隐私保护计算为此提供了行之有效的解决之道。

隐私计算是指在提供隐私保护的前提下，实现数据价值挖掘的技术体系。是融合人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。隐私计算能够保证满足隐私安全的基础上，实现数据价值和知识的流通共享，做到数据可用不可见。

隐私计算关键技术可以分为三类，第一类是联邦学习、第二类是多方安全计算（MPC）、第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。

联邦学习定义

联邦学习（Federated Learning，FL）最初是由谷歌提出，工作原理是：客户终端从中央服务器下载现有的预测模型，通过使用本地数据对模型进行训练，并将模型的更新内容上传至云端，训练模型通过将不同终端的模型更新进行融合，一次优化预测模型，客户终端再将更新后的模型下载到本地，过程不断重复，在整个过程中，终端数据始终存储在本地，不存在数据泄露的风险。基于联邦学习协同构建的机器学习与中心化训练获得的机器学习模型相比，性能几乎是无损的，区别于传统分布式学习的特性：

数据方对数据有绝对控制权，可自主决定何时加入、何时停止。
联邦学习参与方计算能力、通信稳定性存在差异，导致参与方不稳定，使得通信代价高，这是联邦学习的效率瓶颈之一。
传统分布式学习可以通过调整数据分布来做负载均衡，而联邦学习因为通信稳定性的差异，无法做负载均衡的调整。

联邦学习两种架构模式

中心化架构

在中心节点的主导下，各节点协同分布式计算，参与方拥有基于本地数据生成的本地梯度，通过反复交换各参与方的本地梯度来实现全局模型参数的更新，并直到模型参数收敛。传递的内容可以是梯度，也可以是模型参数或其他模型计算结果、需要设计合理的聚合方式

中心化架构.png

主要步骤

初始化：双方先进行样本对齐，横向联邦的特征对齐，纵向联邦的样本ID对齐，针对样本ID的加解密可以约定或协调可信第三方下发密钥。之后，每个参与方从ServerA下载，使每个参与方拥有相同的初始化模型，参与方根据本地的数据集进行训练。 Step1：参与方训练后，将梯度加密后上传给服务器A。 Step2：服务器A聚合各用户的梯度，更新模型参数。 Step3：服务器A将聚合后的梯度发送给各个参与方。 Step4：各参与方使用新梯度更新本地模型参数，直到模型损失函数收敛。

去中心化架构

无中心节点，各个相邻的客户端不断交换本地计算结果，进而得到进度可靠的全局计算结果发。假设有N个参与方，则在去中心化架构中，至少要进行2(n-1)次模型参数的交互。

联邦学习分类

根据不同数据方特征空间和样本空间的分布，可以分为横向联邦、纵向联邦、联邦迁移学习。

横向联邦：各参与方数据集特征重合较大，样本重合较小，横向联邦本质是通过扩充样本数目，实现基于样本的分布式模型训练，以此达到模型效果提升的目的。

tips：不同地区的银行，因为都为银行业务，用户特征相似，但地区不同，用户群体有差异，可以通过横向联邦来扩充样本，提升模型效果。

横向联邦学习.png

纵向联邦：各参与方样本重合较大，数据集特征重合较小，纵向联邦的本质是通过丰富样本特征维度，实现机器学习模型的优化。

tips：相同地区的银行和运营商，因为业务类型不同，用户特征不同，但地区相同，用户群体差异不大，可以通过纵向联邦来扩充标签，提升模型效果。

纵向联邦学习.png

联邦迁移学习：特征空间和样本空间重合度都很低的情况下使用。

联邦学习的挑战

通信效率问题：因为各参与节点计算能力不一致、网络连接状态不稳定、通信效率容易成为联邦学习瓶颈之一。

安全性方面：联邦学习的安全性并没有严格定义，通常希望达到实用性、安全性的平衡。目前潜在的包括：

梯度带来的隐私泄露：原始数据虽然没有出库，但是梯度在一定程度上可以反推参与方数据。目前学术界已经给出一些安全性分析论文。部分解决方案是采用差分隐私技术实现对梯度的保护，差分隐私是通过添加噪声实现隐私保护，会使模型收敛速度和精度降低。
隐私求交问题，纵向联邦中，隐私求交实现样本对齐，能够对非交集样本ID进行保护，但交集内铭文ID存在泄露风向。
基于半同态加密技术的单向隐私保护问题。部分纵向联邦采用半同态加密对中间结果进行加密，这类方案存在解密过程，仅能实现对私钥持有方单项的隐私保护。

健壮性方面：联邦学习本质是分布式机器学习，同样面临拜占庭将军问题，参与方中的敌手可在训练和推理阶段进行投毒攻击、逃逸攻击等，来降低模型的性能或为模型预留后门、破坏模型的可用性。

在这里插入图片描述