本记录来自于复旦大学的Lushan Song博士的讲解
主要把训练,多源和隐私保护作为重点,然后从五个方向讲解:
1.介绍贡献
机器学习数据困难性:数据难收集和共享,数据受到相关法律法规的保护,数据存储在多个位置。
解决办法:安全多方学习(MPL):基于MPC和P2p架构
MPC技术:提供一种安全的计算协议,通过该协议使一组互相不信任的各方可以共同计算一个东西,但是不会泄露结果以外的其他任何信息,且不需要一个可信第三方。(表1)
联邦学习:基于Client-Server模型
FL技术:每个数据拥有者先在本地对这些数据进行学习,再将中间的训练结果而不是原始数据上传到centralized server。
过程分为4步:数据拥有者从centralized server上下载最新模型的参数,再利用它们自己的数据更新模型参数。把更新后的模型参数上传到centralized server.最后centralized server通过聚合各参数来输出一个新的全局模型。(表二)
2.问题定义和挑战
统计学挑战(主要存在于FL):数据拥有者的数据量可能不均衡,这样就会导致难以训练高质量的模型。
效率挑战:这是TMMPP的瓶颈,包括计算量和通信量。尤其是FL可能有数百万各数据拥有者。使用它们之间的通信就带来了几个数量级的额外开销。MPC的效率主要与它的底层协议有关。
安全挑战:每个数据拥有者都可能是不诚实的,分为半诚实和恶意者。
3.协议和框架
第二层底层技术:基于密码学的,基于MPC的,基于差分隐私的
第三层解决方案路线:SMPL和FL
上面就是现有的比较流行的机器学习模型:线性,逻辑,dnn等等
接下来我们就一个一个介绍一下:
HE-based MPL frameworks:
同态加密基本思想:在不使用私钥解密的前提下,对加密数据处理所产生结果和对明文处理所产生的效果一样,且不泄露明文的信息。(PHE(部分同态加密,可执行无数次),SWHE(一些同态加密,有加有乘但是只能执行有限次),FHE(全同态加密,可执行无数次))
下面不在介绍MPC系列都会涉及到而且讲的更加详细。
4.相关平台 5.相关讨论
后面听不下去了。。很多重复。。