MPC系列-基于隐私保护的多源机器学习模型训练

本记录来自于复旦大学的Lushan Song博士的讲解

主要把训练,多源和隐私保护作为重点,然后从五个方向讲解:

           1.介绍贡献   

                   机器学习数据困难性:数据难收集和共享,数据受到相关法律法规的保护,数据存储在多个位置。

                 解决办法:安全多方学习(MPL):基于MPC和P2p架构

MPC技术:提供一种安全的计算协议,通过该协议使一组互相不信任的各方可以共同计算一个东西,但是不会泄露结果以外的其他任何信息,且不需要一个可信第三方。(表1)

                                   联邦学习:基于Client-Server模型

 FL技术:每个数据拥有者先在本地对这些数据进行学习,再将中间的训练结果而不是原始数据上传到centralized server。

    过程分为4步:数据拥有者从centralized server上下载最新模型的参数,再利用它们自己的数据更新模型参数。把更新后的模型参数上传到centralized server.最后centralized server通过聚合各参数来输出一个新的全局模型。(表二)

           2.问题定义和挑战 

                 

                   统计学挑战(主要存在于FL):数据拥有者的数据量可能不均衡,这样就会导致难以训练高质量的模型。

                   效率挑战:这是TMMPP的瓶颈,包括计算量和通信量。尤其是FL可能有数百万各数据拥有者。使用它们之间的通信就带来了几个数量级的额外开销。MPC的效率主要与它的底层协议有关。

                   安全挑战:每个数据拥有者都可能是不诚实的,分为半诚实和恶意者。

          3.协议和框架   

 

第二层底层技术:基于密码学的,基于MPC的,基于差分隐私的

第三层解决方案路线:SMPL和FL

上面就是现有的比较流行的机器学习模型:线性,逻辑,dnn等等

接下来我们就一个一个介绍一下:

      HE-based MPL frameworks:

                  同态加密基本思想:在不使用私钥解密的前提下,对加密数据处理所产生结果和对明文处理所产生的效果一样,且不泄露明文的信息。(PHE(部分同态加密,可执行无数次),SWHE(一些同态加密,有加有乘但是只能执行有限次),FHE(全同态加密,可执行无数次))

               下面不在介绍MPC系列都会涉及到而且讲的更加详细。  

4.相关平台   5.相关讨论

后面听不下去了。。很多重复。。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值