Federated Machine Learning: Concept and Applications
论文链接: link
文章目录
概述
① AI的两大挑战:数据孤岛、加强数据隐私和安全。
② 文章提出的方法:联邦安全学习
③ 作者提出的全面的安全的联邦学习框架:横向联邦学习、纵向联邦学习、联邦迁移学习。
④ 作者建议在基于联邦机制的组织之间建立数据网络,可以在保护用户隐私的情况下进行知识共享。
1. Introduction
(1)困难:
AI项目需要的数据的类型太多,数据集融合阻力太多,对数据安全和用户隐私的强调。
(2)当今的一个主要挑战:
如何合法地解决数据碎片化和隔离的问题。
(3)解决方法:
联邦学习(符合数据隐私和安全法律的数据集成的方法)
2. An overview of fedreated learning
(1)联邦学习的主要思想:
在防止数据泄露的同时,基于分布在多个设备上的数据集建立一个机器学习模型。
(2)优化的主要因素:分布式移动设备用户交互,大规模分布的通信成本,数据分布不平衡和设备可靠性。
数据通过用户ID或设备ID进行分区,因此,可以在数据空间中水平地划分数据。
(3)文章工作:
提供了一个更全面的联邦学习定义,它考虑了数据分区、安全性和应用程序。还描述了一个针对联邦学习系统的工作流和系统体系结构。
2.1 联邦学习的定义
传统方法:取并集,合作训练一个模型
联邦学习方法:数据拥有者不公开数据,合作训练模型
2.2 联邦学习的隐私
这一节的工作:简要回顾和比较联邦学习的不同隐私技术,并确定了防止间接泄漏的方法和潜在挑战。
(1)FL的隐私技术
① 多方安全计算SMC
需要多方参与,在定义良好的仿真框架中提供安全证明,以保证完全零知识(各方除了输入和输出什么都不知道)。
零知识是非常理想的,但是这种理想的特性通常需要复杂的计算协议,而且可能不能有效地实现。在某些场景中,如果提供了安全保证,则可以认为部分知识公开是可以接受的。
在较低的安全要求下,可以用SMC建立一个安全模型,以换取效率。
除了SMC架构还有MPC协议,MPC协议一般是除去用户暴露的敏感隐私数据.
这些工作都是基于部分数据能够被加密分享在没有共谋的服务商之间.
② 差分隐私
差分隐私、k-匿名、分散化等方法包括:在数据中加入变化的噪音、使用泛化方法来模糊某些敏感属性,直到第三方无法区分,从而使数据无法恢复以保护用户的隐私
这些方法都需要将数据传输到其他地方,这通常涉及到隐私性与安全性的权衡
在link 中,作者介绍一个差分隐私的方法,可以通过在训练时隐藏客户的贡献,来保护客户端的数据。
③ 同态加密
通过在机器学习中对参数进行置换从而保护隐私数据。模型和数据都在本地,同时不会被对方数据猜到,因此原始数据基本不会泄露。
在实际应用的机器学习算法中,加法同态加密可以对非线性函数进行多项式逼近,从而在精度和隐私之间进行权衡
(2)间接信息泄露
问题:SGD等优化算法的参数更新,没有提供安全保障,当与数据结构一起公开时,梯度的泄露可能会泄露重要的数据信息(在联邦全局模型中插入隐藏的后门,)。
解决方法:并提出一种新的“约束和规模”模型-中毒方法,以减少数据中毒。
推理攻击:在协作机器学习中,