干货！解析“隐私计算”的四大技术路径

最新推荐文章于 2024-08-13 22:40:08 发布

mGina_

最新推荐文章于 2024-08-13 22:40:08 发布

阅读量2.7k

点赞数 4

文章标签： big data

“隐私计算”的技术路径大致可以分为以下四种：

路径一：数据流出、集中计算

路径二：数据流出、协同计算

路径三：数据不流出、协同计算

路径四：数据不流出、集中计算

我国首部与数据安全相关的法律---《中华人民共和国数据安全法》（下称《数据安全法》）9月1日正式落地实施。

在DT（数据技术）时代，数据已然成为一种重要的资源，是一种重要的新型生产要素。和传统生产要素相比，数据要想真正成为既可以自由流通，又能具备安全性的战略资源，就绕不开数据隐私计算这一环节。隐私计算可以让数据在流通过程实现“可用不可见”，在保护数据隐私的前提下，解决数据流通、应用等数据服务问题，成为解决数据利用和安全性这对矛盾的重要途径。

在隐私计算的领域中也有不同技术路径，它们采用不同的技术形式实现数据隐私安全的目标。根据数据是否流出、计算方式是否集中来划分，隐私计算可以划分为四个不同的象限，分别是数据流出、集中计算；数据流出、协同计算；数据不流出、协同计算和数据不流出、集中计算。

路径一：数据流出、集中计算。代表技术：数据脱敏、差分隐私、同态加密

该技术路径的核心，是对数据进行变形、扰动、加密等操作，可保障数据流出时的隐私安全，主要有三种安全技术：数据脱敏、差分隐私、同态加密。

数据脱敏（Data Masking）是指使用脱敏规则对数据中某些敏感信息进行数据的变形，从而达到保护敏感隐私数据的目的。更具体来讲，我们可以采用删除可识别个人的信息的方式，让数据描述的人保持匿名，也可以采用对数据去标识化，让人们无法根据数据识别到具体的个人。

如果说数据脱敏是通过对敏感信息“做减法”的方式实现保护隐私，那么差分隐私（Differential Privacy）就是以“掺沙子”的方式，通过在数据或者计算结果上添加一定强度的噪声，来保证用户无法通过数据分析结果推断出是否包含某一特定的数据。

而同态加密（Homomorphic Encryption）则是用技术方式，在不影响数据运算结果的前提下将数据变为密文，这也就不再涉及隐私的问题，而不同的加密技术允许不同的运算规则。

整体看，这些技术通过对数据操作来保障数据流出时的隐私安全，但是它们也有一些局限性：

1）数据脱敏容易遭受攻击，从技术恢复数据中的敏感信息较为容易。

2）差分隐私会降低机器学习准确率，较高强度的噪声虽然较好地保护隐私，但对数据分析的准确性也有较大的影响。

3）同态加密运算效率低，也会影响使用该技术的意愿。

路径二：数据流出、协同计算。代表技术：安全多方计算平台

“两个富翁的财富是1-10之间的整数，如何能在不透露双方财富的前提下，比较出谁更富有？”这是姚期智院士在1982年提出的“百万富翁问题”。富翁不露财却又想做比较，按照这样的逻辑，如何在一个互不信任的多方系统中，各参与方能协同完成计算任务，同时保证各自数据的安全性呢？这就是网络安全版的“百万富翁问题”。而解决之道就是安全多方计算。

安全多方计算是密码学的一个子领域，其目标是为各参与方共同计算一个函数，这个函数的输入来自不同的参与方，同时保证这些输入内容不泄漏。目前，随着业界对安全多方计算技术的关注，其应用范围越来越广泛，国内外各大厂商也相继推出各自的安全多方计算平台或隐私计算平台。与此同时，开源的安全多方计算库也越来越多，如在Google公司Tensorflow基础上开源的TF-Encrypted，开源社区Openmined基于微软SEAL开源的TenSEAL，以及安全多方计算的协议实现ABY3与MP-SPDZ等。

这一路径下又有两种主流技术。一种是混淆电路（Garbled Circuit）。通过将两方参与的安全计算函数编译成布尔电路，并将电路的真值表进行加密、打乱，就能保证电路的正常输出而又不泄露参与计算的双方私有信息。另一种是秘密共享（Secret Sharing），类似于需要将所有的秘密拼在一起才能还原全貌的思路，这种技术在参与者之间分发秘密，每个参与者都被分配了一份秘密分割，只有当足够数量的、不同类型的秘密分割组合在一起时，才能将秘密恢复出来；单个的秘密分割本身是没有任何意义的。

这一技术实现了可证明的安全性，对于安全性要求较高的场景具有较好的应用价值。但在实际落地中，仍有一定的局限性：

1）性能低下：由于使用了很多密码学方法，一些复杂的任务很难在在短时间内完成计算任务；

2）程序编写难度大：由于安全多方计算涉及密码学技术较多，且应用起来流程较其他技术相比非常复杂，通常需要通过借助额外的编程库进行实现，这大大增加了应用编写人员的学习成本和工作量，导致在实际落地过程中仍存在障碍。

3)调试难度大：由于安全多方计算仅输出最终的执行结果，在面对复杂的分析问题时，使用者难以仅通过程序的最终执行结果获得反馈去优化整个数据分析过程。

路径三：数据不流出、协同计算。代表技术：联邦学习平台

联邦学习(Federated Learning)的概念于2016年由Google率先提出，用于解决安卓手机终端用户在手机端使用用户数据训练模型的问题，其本质上是一种分布式机器学习。这一技术的核心思路是，尽管有同一个中央服务器或服务协同商，但参与方的原始数据都只会在本地，而不会用于交换传输，真正参与聚合的完成训练的是经过模型转换的数据信息。

由于场景的区别，联邦学习还分为了横向联邦学习、纵向联邦学习和联邦迁移学习等形式。随着欧盟《通用数据保护条例》（GDPR）的推出，数据隐私保护越来越受到各国重视，联邦学习的应用范围也愈加广泛。例如，Google公司开源了一个学习框架，用来完成分类、回归等机器学习任务；国内以杨强教授为代表的微众银行开源联邦学习框架FATE，提供一站式联邦模型服务解决方案。

整体看，联邦学习可以在数据不流出本地前提下，联合多个参与方训练模型，对于打破数据孤岛具有重要意义。其局限主要在：

1）存在隐私泄露风险，联邦学习的训练模型是需要共享的，这就为攻击者根据模型信息倒推隐私数据提供可能。

2）机器学习算法兼容性较差，且目前支持的机器学习算法较少。

3）机器学习任务调试困难，要想获得最优的模型和参数往往通过不断尝试和调试获得，一个标准机器学习工作流包括数据探索、特征工程、模型选择、超参数优化等步骤，再加上在联邦学习场景下，数据分散在各地，数据可用不可见，这些步骤很难在保证安全的前提下完成。

路径四：数据不流出、集中计算。代表技术：可信计算平台

可信计算平台就是通过隔离机制构建出一个安全可控区域，在这个足够安全的空间中，数据能够被集中训练且不流出，从而保证内部加载数据的机密性和完整性。

具体讲，可信计算平台又有两种技术。一种是可信执行环境（Trusted Execution Environment，TEE），该技术通过软硬件隔离安全机制建立一个安全隔离的执行环境，从而防止外部攻击者（包括系统管理员）窃取TEE内部运行的数据。硬件上，它依赖于将其预置在CPU等硬件，然后再通过应用程序的参与营造出一个安全世界。TEE具备支持多层次、高复杂度的算法逻辑实现，运算效率高以及可信度量保证运行逻辑可信等特点。然而，TEE由于依赖于CPU等硬件实现，必须确保芯片厂商可信。同时，TEE对服务器型号限制较大，其功能性和性能等均受到硬件限制。

另一种技术为数据沙箱技术，该技术通过构建一个可信计算环境，使得外部程序可以在该平台上进行执行。这样，既可以使用外部程序对数据进行加工处理，也可以保障数据的安全。对于数据需求方人员，他们不能进入数据沙箱查看调阅真实的全量数据。对于数据分析师而言，由于数据沙箱将调试环境和运行环境隔离，所以他们也只能在调试环境中使用样本数据调试代码，然后将代码发送到运行环境中运行全量数据，从始至终都无法接触全量数据，这样，隐私安全的保护就得以实现。

数据沙箱技术主要特点是将隐私安全能力植入大数据计算、存储引擎等基础设施，通过将调试环境与运行环境隔离，构建一个安全可控的数据环境，提升数据融合计算过程中的隐私安全水位，实现数据挖掘计算过程中的可用不可见，且不改变业务原有技术栈和使用习惯无需改造现有的数据分析算法和工具，同时使得业务算法模型精度折损微小。因此，这可以说是兼具安全性和可操作性的较为成熟的技术。

目前，国内学术界以中国工程院院士方滨兴为代表，基于可信计算平台技术打造AI靶场接收用户程序，通过防水堡过滤用户程序外传结果时夹带的原始信息。在国内产业界，奇安信、百度、京东数科、UCloud等各大厂商均有推出数据沙箱相关产品。以奇安信率先推出的“数据交易沙箱”为例，它基于“数据不动程序动”、“数据可用不可见”的安全理念，采用调试环境与运行环境隔离的技术来解决数据流通交易过程中的数据隐私安全问题。

除了上述谈及的四大技术路径，在网络安全领域，伴随网络技术的不断发展，区块链技术与上述技术流有着融合趋势。区块链具有数据可溯源、难以篡改、公开透明、智能合约自动执行等技术特点，能够一定程度上解决多方协作、多方信任和数据共享流通的问题。在与隐私计算相结合时，主要有三个关键技术：一是基于区块链的安全密钥管理与可信身份认证；二是链上、链下的安全计算协同；三是数据生命周期管理。

安全密钥管理与可信身份认证能够实现相对安全灵活的密钥管理体系，降低密钥中心化存储的安全风险，在防止中间人攻击和丢包攻击的同时，使得隐私管理更加安全、精细化。此外，该技术也能解决数据共享参与者身份及数据可信问题，这样，不仅可以提升恶意参与者的作恶成本，还可以保障共享计算的数据质量。

链上、链下的安全计算协同又可分为链上与链下两个部分。通过链上与链下相结合，区块链专注业务逻辑可信执行与数据权属凭证流通，而链下隐私计算网络负责大规模运算和数据价值流通，最终实现一加一大于二的效果。

数据生命周期安全管理方面需要实现全流程管理，包括数据采集、传输、存储、使用、流通、销毁等环节。数据共享计算参与者可以在链上用智能合约来实现计算过程中的协作管理功能，由参与方之间共同治理隐私计算过程，协作过程公平公正、公开透明、权责对等，避免了中心化协调方参与带来的隐私泄漏的风险，也能确保参与方按照约定方式计算,提升数据共享协作效率。

区块链隐私计算目前也正投入到实际场景中得到应用。然而，它仍然具有一些问题等待进一步解决。例如，区块链上数据处理能力不足，链上计算受限于虚拟机执行和网络共识性能，容易出现链上无法承载大量交易和无法即时交付等问题，难以满足支持高吞吐的交易量和即时交付的需求。其次，由于在引入区块链技术时数据半同态加密、用户身份认证等密码学保护手段。这会使得架构上引入了额外的申请审批流程，计算上引入了加密带来的额外计算开销，使得数据流通过程效率大幅降低。

以上可以看出，隐私计算的四个技术路径各有不同、各有利弊。但毫无疑问的是，既具有技术上的先进性，又具有操作执行上便捷性、延伸性以及高效率等特点的技术，无疑能够在当前获得更大认可。而把握未来技术的动向，占据技术发展的上风，将成为各方参与者需追求之事。