隐私计算技术分类
隐私计算主要技术体系分三类,第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。 多方安全计算:基于密码学技术,完成多方间的数据融合计算,主要用于联合统计、联合查询、联合建模和联合预测。 联邦学习:本质上是一种分布式机器学习的一种,通过对各参与方间的模型信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据。主要用于联合建模、联合预测。 可信执行环境:通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。
多方安全计算基于密码学原理实现通用计算能力
多方安全计算(MPC) ,姚期智院士于1982年通过提出和解答百万富翁问题而创立。指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出任意一方的输入数据,然后获得准确的结果。
技术特点:在不泄露任何隐私数据的情况下让多方数据共同参与计算(包括敏感的中间计算结果),可以使多个非互信主体在数据相互保密的前提下进行高效数据融合计算,达到数据可用不可见。
从底层硬件来看,可以使用通用硬件作为底层架构,也可以选择可信执行环境等基于可信硬件的隐私计算技术相结合提供安全加强的方案。
从算法构造来看,除混淆电路,秘密分享,不经意传输等密码学原理构造的经典多方安全计算协议外,也应用了同态加密、零知识证明等密码学算法。
从算法应用来看,联合统计、联合查询、联合建模、联合预测等场景。
联邦学习变革机器学习范式广泛应用于联合建模
联邦学习(FL) ,是实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。
技术特点:通过对各参与方间的模型信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据。
面临挑战:联邦学习过程中出现的数据和模型的隐私泄露和安全攻击如何防护;如何对非独立同分布、参差不齐的质量的数据建模;如何降低通信复杂度和技术复杂度;如何评估各参与方的贡献。
从底层硬件来看,一般以通用硬件作为底层基础设施,也可以选择可信执行环境等基于可信硬件的隐私计算技术相结合提供安全加强的方案。
从算法构造来看,常应用同态加密、差分隐私技术以及包括基于秘密分享、不经意传输、混淆电路等密码学原理的各类多方安全计算协议。
从算法应用来看,联合建模、联合预测。
联邦学习相关概念参考公众号其他文章 - 《隐私计算之联邦学习》
可信执行环境依托于可信硬件提供高效计算方案
可信执行环境(TEE) ,通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。目前主要的通用计算芯片厂商发布的TEE技术方案包括X86指令集架构的Inter SGX、AMD SEV技术以及高级RISC机器指令集架构的TrustZone。国内计算芯片厂商推出的TEE功能则包括兆芯ZX-TCT技术、海光CSV技术以及ARM架构的飞腾、鲲鹏也已推出TruestZone功能。
隐私计算关键技术概念辨析
混淆电路(GC)协议:使用布尔电路构造安全函数计算,保证一方输入不会泄露给其他方,计算出结果,并能指定结果由哪方获得或者是两方以分片形式共有。常用于通用计算场景,通信量大,但通信轮数固定,适用于高带宽高延迟场景。
秘密分享(SS)协议:将秘密信息拆分成若干分片,由若干参与者分别保存,通过参与者的合作,对分布式存储的分片进行安全计算,全部分片或达到门限数的分片根据多个份额可重新恢复秘密消息。秘密分享计算量小、通信量低,构造多方加法、乘法以及其他更复杂的运算特别有优势,能实现联合统计、联合建模、联合预测等多种功能。
不经意传输(OT)协议:数据发送方有N个数据,数据接收方接收其选定的一个数据,且不能获取其他数据,同时数据发送发无法知道接收方的选择,不经意传输常用构造多方安全计算协议,是GMW协议、混淆电路设计、乘法三元组的基础构建,还可用于实现隐私集合求交(PSI)、隐私信息检索(PIR)等多种多方安全计算功能。
零知识证明(ZKP) :证明者能够在不向验证者泄露任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明是一种两方或多方的协议,两方或多方通过一系列交互完成生成证明和验证。在实际应用中,零知识证明能够实现证明者向验证者证明并使其相信自己知道或拥有某一信息,而证明过程不会向验证者泄露任何关于被证明消息的消息。
差分隐私(DP) :针对数据库的隐私泄露问题提出的一种新型密码学手段,通过在源数据或计算结果上添加特定的分布的噪声,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体。又分为本地差分隐私和计算结果差分隐私。本地差分隐私指在汇聚和计算前数据就加入噪声,用于数据收集方不可信的场景;计算结果差分隐私是指最终计算结果发布前对其加噪声。
同态加密 :满足密文同态运算性质的加密算法,即数据经过同态加密后,对密文进行特定的计算,得到的密文计算结果在进行对应的同态解密后的明文等同于对明文数据直接进行相同的计算,实现数据的可算不可见。同态加密特点:通信量小,通信轮数少。
PSI(Private Set Intersection)隐私集合求交:不安全的PSI方案:基于朴素哈希的方案、基于辅助服务器的方案,安全的PSI方案:基于公钥加密的方案:DIffie-Hellmann / RSA盲签名、基于OT的方案、基于HE的方案、基于GC的方案。
关注公众号【IT转型指北】,回复【隐私计算】,即可获得最新隐私计算白皮书,定期分享高质量文章!