1、隐私计算技术

东学西秀

已于 2023-05-27 09:49:17 修改

阅读量1.8w

点赞数 6

分类专栏：三、隐私计算、区块链、量子计算文章标签：密码学

于 2021-06-28 14:58:11 首次发布

本文链接：https://blog.csdn.net/weixin_42369053/article/details/118304002

版权

三、隐私计算、区块链、量子计算专栏收录该内容

10 篇文章 39 订阅

订阅专栏

参考推荐：

实现隐私计算的相关技术_爱做梦的鱼的博客-CSDN博客-实现隐私计算的相关技术

隐私计算分类_hellompc的博客-CSDN博客_隐私计算技术分类-隐私计算分类

隐私计算的介绍-入门学习笔记(一)_qq_32938957的博客-CSDN博客_隐私计算-隐私计算入门

隐私计算平台调研_能量守恒洛的博客-CSDN博客_隐私计算平台-隐私计算平台

隐私计算概念及应用介绍_林立可的博客-CSDN博客_隐私计算-隐私计算概念及应用介绍

隐私计算+AI工程技术实践指南--整体介绍_矩阵元技术团队的博客-CSDN博客_隐私计算框架-隐私AI工程技术

【联邦学习】隐私计算理论和效率_牧心.的博客-CSDN博客_隐私计算理论-隐私计算理论和效率

隐私计算技术发展报告_店精灵的博客-CSDN博客-隐私计算技术发展报告

隐私计算技术

2016 年发布的《隐私计算研究范畴及发展趋势》正式提出“隐私计算（Privacy Computing）”一词，并将隐私计算定义为：“面向隐私信息全生命周期保护的计算理论和方法，是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”

隐私计算广义上是指面向隐私保护的计算系统与技术，涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程，想要达成的效果是使数据在各个环节中 “可用不可见”。目前最先落地于金融、医疗等行业。隐私计算本质上是在保护数据隐私的前提下，解决数据流通、数据应用等数据服务问题。

隐私计算的理念包括：

”数据可用不可见，数据不动模型动“
“数据可用不可见，数据可控可计量”
“不共享数据，而是共享数据价值”等

隐私计算平台

阿里摩斯
华控清交
XDP
ARPA
万向

隐私权：个人隐私数据的隐私权，与科学数据隐私权，即大数据交易的所有权。

隐私计算的范畴及发展范围：隐私计算是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。

1、为什么需要隐私计算

数据泄露：

如今，越来越多的消费者更加担心个人数据和隐私的安全问题，皮尤研究中心(Pew Research Center)去年进行的一项调查发现，有79%的成年人担心公司如何使用收集到的有关他们的数据，52%的成年人表示他们因为担心个人信息被采集而选择不使用产品或服务。在今天这个高度数字化的社会，隐私数据面临空前的威胁，无论是个人社交媒体信息、医疗健康信息、财务信息、位置信息、生物特征信息、消费者画像信息等等都存在过度分享和滥用问题，且采集处理这些信息的企业或机构往往缺乏足够的隐私加密和保护能力。与此同时，随着全球对数据价值的认识与日俱增，数据隐私和安全已经成为企业业务运营的重要基石，重要性无论如何强调都不为过。

目前数据泄露已形成产业链条，并催生了三大变现途径：精准诈骗、撞库攻击以及撒网式诈骗，有可能产生严重的次生风险。撞库攻击分为拖库、洗库、撞库。拖库：入侵一个网络站点，获取站点的用户名密码；洗库：根据某种计算方式，过滤用户信息，获取有价值的用户；撞库：将该站点的用户名和密码登录其他站点，形成撞库。

在数据爆炸的今天，在网络用户毫无隐私地赤裸裸地暴露在网络服务提供者面前的今天，在个人隐私在网上被当成商品买卖的今天，在国家立法保护数据隐私的今天，在用户隐私意识觉醒的今天，人们对于隐私保护的强烈需求必将带来下一波技术浪潮。

数据孤岛：

在大数据时代中，海量的数据的交叉计算和人工智能的发展为各行各业提供了更好的支持，但这些被使用的数据往往包含用户的隐私数据，或企业/机构的内部数据。这些数据由于数据安全和隐私的考虑，往往是不对外开发，例如政府数据由于政策保密性完全不能对外公布；运营商、互联网公司收集到的客户数据，也不能透露给第三者，因此形成了一个个数据孤岛；数据之间不能互通，数据的价值无法体现。

如何应用海量的数据，实现数据流动，同时能够保护数据隐私安全、防止敏感信息泄露是当前大数据应用中的重大挑战。隐私计算就是为了解决这些问题应运而生。隐私计算，广义上是指面向隐私保护的计算系统与技术，涵盖数据的生产、存储、计算、应用等信息流程全过程。

2、解决方案

通过把密码学的一些技术集成在相关的架构上，进行不同隐私保护相关的分类、硬件加速、控件开发，让机构和个人用户使用。例如，通过隐私计算中：安全多方计算、代理重加密、同态加密、零知识证明等。

简单地说，两个人比谁的存款多，过去的做法是把数字写出来，大家直接比较。还有一种做法，我们信任另外一个人，把数字告诉他，他再告诉我们谁多。我们的做法，也就是“安全多方计算”，我的银行的余额在我的卡上，你的银行余额在你的卡上，我们不需要知道具体数据，只要通过基于安全多方计算的计算，最后比较出大小。举个在传统金融领域应用的例子，两个机构之间有黑名单和白名单的差异，他们并不乐意交换，因为有顾虑。这个用安全多方计算就能很容易解决，不要分享白名单和黑名单，只需要分享计算的结果就可以了，这就可以用我们的安全多方计算的工具来协同计算某一个人在我们两个机构之间到底是什么样的。

隐私计算实现相关技术

当前实现隐私计算的技术主要可分为可信硬件和密码学两大方向。可信硬件指可信执行环境，核心思想是构建一个安全的硬件区域，各方数据统一汇聚到该区域内进行计算。密码学指用算法实现对计算过程中的数据保护，以安全多方计算、联邦学习等为代表。

从技术角度出发，和隐私计算相关联的概念很多——安全多方计算（MPC）、可信硬件（TEE）、联邦学习、差分隐私、区块链等。目前业内采用的主流技术包括三类：安全多方计算（MPC）、联邦学习和可信执行环境（TEE）。（差分隐私作为一种数据处理方式也纳入其中）

基于协议的安全多方计算
基于现代密码的联邦学习
基于硬件的可信执行环境

1）安全多方计算（Secure Multi-Party Computation）

安全多方计算是指在无可信第三方情况下，通过多方共同参与，安全地完成某种协同计算。即在一个分布式环境中，多个参与者共同完成对某个函数的计算，该函数的输入信息分别由这些参与者提供，且每个参与者的输入信息是保密的，在计算结束后，各参与者获得正确的计算结果，但无法获知其他参与者的输入信息。

安全多方技术的核心在于计算参与方在数据加密状态下进行计算。彼此不知对方数据，却能得到正确的计算结果，是一种在参与方不共享各自数据且没有可信第三方的情况下安全地计算约定函数的技术和系统。通过安全的算法和协议，参与方将明文形式的数据加密后或转化后再提供给其他方，任一参与方都无法接触到其他方的明文形式的数据，从而保证各方数据的安全。

安全多方计算

这种方式主要基于密码学的一些隐私技术，相关概念还包括同态加密(Homomorpgic Encryption)、不经意传输(Oblivious Transfer)、混淆电路(Garbled Circuit)和秘密共享(Secret Sharing)等。四种不同的多方安全计算实现：

秘密共享：将计算任务看作函数
同态加密：将计算任务看作函数
不经意传输：将计算任务看作查询
混淆电路：将计算任务看作电路

安全多方计算的相关概念

多方安全计算定义了多方联合的计算任务，其中每一方拥有一份输入，最终每一方只能得到函数的输出值而无法获知其他参与方的输入值。

2）联邦学习(Federated machine learning/Federated Learning)

联邦机器学习又名联邦学习，联合学习、联盟学习，联邦机器学习是一个机器学习框架，能帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。有观点认为，基于多方数据进行联合建模，各自原始数据不对外输出，由中心方进行协调的建模，都可称为联邦学习。联邦学习的系统架构大致分为横向联邦学习、纵向联邦学习、迁移学习三类，分别对应不同数据集的差异情况。

联邦学习的核心就是：“数据不出门，算法满地跑”

联邦学习

联邦学习是一种分布式机器学习技术和系统，包括两个或多个参与方，这些参与方通过安全的算法协议进行联合机器学习，可以在各方数据不出本地的情况下，通过交换中间数据的形式，联合建模和提供模型推理与预测服务。而且这种方式得到的模型效果和传统的中心式机器学习模型效果几乎相同。目前，联邦学习技术在传统的机器学习算法如线性回归，决策树等模型中比较成熟，研究的重点是深度学习模型。联邦学习技术的运用通常需要与安全多方计算技术相结合，甚至是区块链等。联邦技术的发展方向是构建统一化联邦平台执行数据交易。

3）可信执行环境（Trusted Execution Environment TEE）

以上两种方式主要是在软件和算法层面实现隐私计算。可信执行环境（TEE）则基于硬件实现。这种方式的思路是在CPU 上构建一块安全区域，这块区域的作用是给数据和代码的执行提供一个更安全的空间，在这个安全区域内进行相关的计算。比较有代表性的是Intel-SGX、ARM-TrustZone等。

可信执行环境

基于可信硬件的可信计算技术。相比基于软件和协议确保的隐私性，硬件实现的方式更安全可靠。目前在国内，蚂蚁也在做这个事情。

除了以上三大门派外，还有差分隐私、K匿名算法、L多样性等隐私相关的技术，这些技术不是相互替代关系，而是可以相互结合，产生更强大的威力。

三种技术对比：

隐私计算经过近几十年的发展，目前在产业互联网、人工智能、金融科技、医药保护共享数据等方面发挥重要的作用。目前在对数据隐私的保护方面，隐私计算技术的应用主要可以分为可信硬件, 安全多方计算，联邦学习三个主要流派。这三种方式在安全性、工程能力和落地场景等方面存在不同的特点，我们可以通过下文这张对比图，了解不同技术思路的优劣势。

三大技术对比图

「少林派」：安全多方计算相当于是少林派，为什么呢？历史最悠久，提供大量底层的安全技术，其他的门派多少会用到安全多方计算的底层技术。安全多方计算(Secure Multi-Party Computation)是指在无可信第三方情况下，通过多方共同参与，安全地完成某种协同计算。即在一个分布式的网络中，每个参与者都各自持有秘密输入，希望共同完成对某个函数的计算，但要求每个参与者除计算结果外均不能得到其他参与实体的任何输入信息。也就是参与者各自完成运算的一部份，最后的计算结果由部分参与者掌握或公开共享。安全多方计算主要基于密码学的一些隐私技术，包括有同态加密(Homomorpgic Encryption)，不经意传输(Oblivious Transfer)，混淆电路(Garbled Circuit)，秘密共享(Secret Sharing)等。

「华山派」：主要是基于可信硬件方面技术，即通过硬件技术来对数据进行隔离保护。通用的应用方法包括安全屋，可信执行计算环境等。安全屋主要依赖芯片制造工业和系统架构，山路凶险，易守难攻，对独立第三方来说，好处是不用深入研究算法和密码学，缺点是受限制较多，数据需要先集中后处理。

「武当派」：联邦学习是后起之秀，就像武当派从少林派得到很多启发一样，联邦学习结合密码学和分布式计算，实现了多方协作的机器学习，在人工智能领域开辟了新天地。

隐私增强技术PET

企业不仅在直接面向消费者的2C市场，在B2B环境中也在寻求减轻隐私风险和担忧的方法，这刺激隐私增强技术(PET)领域的快速进步和商业化。PET是一种强大的技术类别，可在整个生命周期中启用、增强和保护数据隐私。通过采用以数据为中心的隐私和安全性方法，这些技术有助于确保敏感数据在处理过程中得到有效保护。

PET是一个笼统的术语，包括在隐私信息采集、存储、以及在执行搜索或分析过程中对于保护和增强隐私安全性的数据安全技术，例如同态加密、安全多方计算、差分隐私和受信任的执行环境等，其中许多技术存在交集，或者可以结合使用。

隐私增强技术的安全性排序：同态加密>安全多方计算>差分隐私>可信执行环境：

通常，虽然在不同的应用程序和用例中隐私增强技术的安全性存在一些差别，但总体来说，技术越安全，它提供的隐私保护或隐私保护功能就越多。在上述四大隐私增强技术中，同态加密提供最强的安全性。可信执行环境(TEE)提供的安全功能最弱(因此，隐私保护最少)。了解每种技术对于确定给定用例的正确选择很重要。

同态加密

同态加密是最安全的选择，尤其适合云计算时代需要将计算转移到云端同时又需要确保(未加密)数据安全的应用场景。它被广泛认为是加密的“圣杯”，它允许对加密密文进行计算。同态加密不是一项新技术，学术领域已经进行了30多年的研究。尽管从历史上来看同态加密一直是计算密集型的技术，但现在的最新突破使之可广泛用于各种商业应用。

同态加密的核心是在密文/加密空间中提供两种原始操作：能够将两个同态加密值相乘(乘法)和/或能够将两个同态加密值相加(加法)。根据能否同时支持乘法和加法操作，同态加密分为两种基本类型：全同态加密和部分同态加密。全同态加密在密文空间中同时支持乘法和加法，而部分同态加密在密文空间中仅提供乘法或加法操作。两种类型都功能强大，并且可以集成到支持核心业务功能的算法中，这些功能包括加密搜索和加密分析(例如机器学习/AI)。

利用全同态加密可以实现让解密方只能获知最后的结果，而无法获得每个密文的消息与同态计算方式，可以提高隐私信息的安全性。可以在诸如私有集相交之类的技术中利用它来安全地计算两组数据中的重叠项。值得注意的是，尽管人们可以选择利用特殊类型的硬件(GPU、FPGA)来加速某些同态加密数学计算，但同态加密算法和利用该技术提供业务功能的软件产品是不受硬件平台限制的。

安全多方计算

安全多方计算(SMPC或MPC)技术系列允许多方共同对数据进行操作，同时保持其各自的输入信息私有和安全。SMPC提供数据源不离开本地的多方协同计算能力，提供强大的安全保证。像同态加密一样，该技术也有近30年的历史，自1980年代中期以来，安全多方计算一直是学术界研究的活跃领域。学术界的突破以及商业领域中许多技术提供商的解决方案已经使SMPC变得成熟，可以在某些用例中实用。SMPC的安全性以及相关的隐私安全性差异很大，这取决于所使用的实现类型。

差分隐私

在差分隐私中，出于混淆目的，将随机生成的噪声添加到基础数据中，对更改后的数据执行的任何计算仅在统计/方向上正确(即不准确)。因此，由于不能保证准确的结果并且限制了可能的计算，因此差分隐私的应用领域比其他隐私增强技术要窄。

可信执行环境

PET中最不安全的是可信执行环境TEE，有时也称为安全飞地技术。TEE的安全性本质上是基于安全边界的安全模型。在TEE中，安全边界范围很小，仅存在于硬件芯片本身而不是网络边界。与任何安全边界模型一样，如果您可以突破边界，则可以访问其中的所有数据。由于所有内容都在片上飞地范围内进行了解密，因此，TEE实现了非常快速的计算能力，但需要权衡弱化的安全性和隐私状态。这可能适用于某些具有更宽松的安全性和隐私约束(即不需要国家级安全性或隐私保护法规合规)的用例。

在TEE领域中最著名的商业产品是Intel SGX。自从几年前发现Spectre和Meltdown漏洞以来，SGX不断地出现安全问题，不但没能补强安全性，反而成了安全短板。由于TEE受硬件限制，因此利用它们来保护使用中的数据的应用程序也存在此限制。英特尔正在开发API抽象层，以帮助实现不同硬件TEE之间的应用程序可移植性。

隐私增强技术还包括：

零知识证明：可用于身份验证等场景，例如无需提交准确生日信息就可验证用户是否符合规定年龄。零知识证明符合数据最小化、数据安全和隐私设计等原则，是2020年最值得关注的隐私增强技术之一。

代理重加密：提供数据授权和分享的有效工具；为第三方平台提供基于隐私保护的数据传输和交换能力。

边缘计算和本地数据处理：如果说同态加密主要解决的是云计算的隐私问题，那么本地数据处理则将工作负载也移出云端，转移到“边缘计算”，边缘计算也能够推动数据最小化，大大降低云服务商聚集的数据量。

设备层面的机器学习：最新的机器学习技术热点除了半导体组件和算法外，还包括高速本地存储和处理数据(边缘计算)。

身份管理：大量身份管理平台和方案正在涌现，尤其值得关注的是分布式账本技术、本地处理等，可以实现在没有互联网访问的情况下建立安全链接，交换身份相关的证书(例如数字货币支付或者选举投票)。

小数据：与大数据相对应，小数据(Small Data)指人工智能或者机器学习系统借助数据增强、转移学习、合成数据集等技术，使用很少，甚至不使用真实数据。随着小数据技术的兴起，也许未来的人工智能模型将不再需要海量的训练数据，同时也将极大降低隐私风险。

用户对隐私的渴望将是科技业，更是网络安全行业的下一个金矿。无论是在政府法规的引导下还是在消费者需求的引导下，企业都必须准备好在优先考虑数据和隐私安全性的世界中运营。

此外，随着隐私增强技术(PET)在商业领域中的广泛应用和日益流行，越来越多的企业将隐私增强技术作为数字化转型的必备技术。但是，企业首先需要识别哪些是以隐私为中心的业务，然后选择投资最合适的隐私增强技术。