官方文书:https://zhuanlan.zhihu.com/p/81827262
video:https://www.bilibili.com/video/av94210909
以下是个人笔记:
算力成本可控,但是数据分布不均衡,大部分数据掌握在龙头.
最近政策上数据监管越来越严格,保护越来越全面,鉴于安全性的考虑所以会出现数据孤岛.
联邦学习可以实现数据隔离(数据不泄漏到外部),当然我们还希望FL可以实现参与者地位对等\无损\共同获益等特性.
FL主要分为横向和纵向FL
可以看出横向一般数据集特征重合较多,但是数据来源差异较大而纵向数据来源重合较大但是数据集间的特征比较孤立.
纵向联邦学习
这里希望最后效果是超过单边数据建模的(划重点)
这个就是典型的 很多数据的ID是相同的但是数据特征是不同的.
纵向联邦建模的第一步就是样本对齐
联邦学习的关键技术就是保护隐私和安全方法
- 同态加密
- 多方安全计算
- 姚式混淆电路
- 差分隐私DP
FATE只要是运用加法同态加密
数据样本id对齐
这里举了一个例子:A有五个用户,B有五个用户,如何让AB都找到交集用户而不相互透露自己的非交集用户.

这里利用$(r_i^e \times H(u_i))^d = r_i \times (H(u_i)^d)%n $这个特性是欧啦定理或者是费马小定理(之后需要证明的时候再去看)
后面还介绍了ML在FL中如何修改为不透露数据的方式进行训练,这里不介绍(此文以概念为主)有兴趣的人可以去搜索相关的论文
这里提到了一个split learning
横向联邦学习
数据特征相同,相当于丰富了数据的厚度
目前常用的FedAvg算法(可以去着重看一下)
传统安防数据标签较少,分散,集中管理成本高,离线延迟的模型更新和反馈
那FL就可以做到

比如谷歌输入法就是这样,当然这也可以解决医疗大数据的一个隐私痛点:隐私\分散\数据分布不同
FATE
第一个开源:2019.02
FATE v1.2 2019.12
支持多方纵向联邦学习
支持横向\纵向联邦深度学习
spark计算引擎
支持secreshare协议
2020.03现在已经出现FATEv1.3支持多种联邦推荐算法.
http://github.com/FederatedAI/
http://FedAI.org
技术架构总览

8129

被折叠的 条评论
为什么被折叠?



