面向数据安全共享的联邦学习研究综述

开放隐私计算 摘 要:跨部门、跨地域、跨系统间的数据共享是充分发挥分布式数据价值的有效途径,但是现阶段日益严峻的数据安全威胁和严格的法律法规对数据共享造成了诸多挑战。联邦学习可以联合多个用户在不传输本地数据的情况下协同训练机器学习模型,是实现数据安全共享的新范式。对联邦学习的工作原理及与其密切相关的技术进行了简要介绍,并系统地总结联邦学习的隐私安全性以及其与区块链结合的研究现状,最后对下一步的研究方向做出了展望。内容目录:1 相关技术介绍1.1 隐私计算框架1.2 联邦学习1.3 区块链技术1.4 相关密码
摘要由CSDN通过智能技术生成

开放隐私计算

摘 要:跨部门、跨地域、跨系统间的数据共享是充分发挥分布式数据价值的有效途径,但是现阶段日益严峻的数据安全威胁和严格的法律法规对数据共享造成了诸多挑战。联邦学习可以联合多个用户在不传输本地数据的情况下协同训练机器学习模型,是实现数据安全共享的新范式。对联邦学习的工作原理及与其密切相关的技术进行了简要介绍,并系统地总结联邦学习的隐私安全性以及其与区块链结合的研究现状,最后对下一步的研究方向做出了展望。

内容目录:

1 相关技术介绍

1.1 隐私计算框架

1.2 联邦学习

1.3 区块链技术

1.4 相关密码学技术

2 联邦学习的隐私安全性研究

3 联邦学习与区块链的结合研究

4 结 语

伴随着云计算、边缘计算等新一代信息技术的快速发展,全球数据量呈爆发式增长。数据已经成为影响全球竞争的重要战略性资源,各国陆续出台相应政策大力支持数字经济的发展。然而,现阶段海量的数据分布在不同的组织机构和信息系统中,需要实现跨部门、跨地域、跨系统间的数据共享,才能充分发挥数据价值。但是数据安全与合规问题却对数据共享造成了诸多挑战,一方面,数据易被复制的特性使得数据主体担心自己的商业秘密或用户隐私泄露,导致他们不愿共享数据;另一方面,日益严格的数据安全法规对个人数据的流通和使用提出了诸多限制。

隐私计算技术的兴起为保障数据在安全合规的前提下发挥价值提供了破局思路,它是一个涵盖密码学、人工智能、安全硬件等众多领域的跨学科技术体系。联邦学习是隐私计算的代表性技术之一,可以使分布式用户无须传输本地数据即可实现联合建模,成为数据安全共享的新范式。由于联邦学习可以与安全多方计算、可信执行环境以及其他密码学技术相结合,因此被学术界和工业界广泛研究,并应用于智能家居、智慧城市、工业互联网等场景。本文首先对隐私计算框架、联邦学习、区块链以及相关密码学技术进行简要的概述,然后介绍了联邦学习的隐私安全性以及其与区块链相结合的两方面研究成果,最后对未来的研究热点进行展望。

1

相关技术介绍

1.1 隐私计算框架

隐私计算技术为数据在融合应用中保障数据安全合规提供了关键技术路径,当前已经成为政、学、研、产等各界的关注焦点。据国际权威调研机构 Gartner 预测 ,2025 年将有一半的大型企业使用隐私计算技术在不可信的环境中处理敏感数据。隐私计算联盟、中国信息通信研究院云计算与大数据研究所于 2021 年发布的《隐私计算白皮书》 中将隐私计算定义为在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。从技术原理上讲,隐私计算交叉融合了密码学、人工智能、安全硬件等众多学科,以联邦学习、安全多方计算、可信执行环境 3 种主流技术为代表,同态加密、差分隐私、零知识证明、秘密共享等为底层密码学技术,同时与区块链技术紧密结合。其技术体系如图 1 所示。

图 1 隐私计算技术框架

本文主要关注联邦学习与区块链技术以及相关密码学技术的结合应用现状。其技术原理如下文所述。

1.2 联邦学习

联邦学习是谷歌于 2016 年提出的一种分布式机器学习框架 ,被用于联合大量分布式用户的数据训练一个高质量的机器学习模型。联邦学习能够在用户数据不出本地的情况下联合利用多方数据,是解决“数据孤岛”问题的重要框架,其核心思想是“数据不动模型动,数据可用不可见”。传统的集中式机器学习算法需要将数据集中到中心服务器来训练模型,这不仅会消耗大量的通信资源,数据在传输过程中也可能面临隐私泄露风险。而联邦学习仅需要用户向服务器上传本地训练得到的模型参数,由服务器协调多用户来协同训练机器学习模型。联邦学习一般流程如图 2 所示。

图 2 联邦学习一般流程

步骤 1:在初始化阶段,服务器根据训练任务将初始化模型下发给所有参与训练的用户。

步骤 2:每个用户将收到的模型作为本地模型,以最小化损失函数为目标,利用梯度下降等优化算法在本地数据集上进行训练。迭代若干次后将模型参数(例如梯度、权重参数等)上传至中心服务器。

步骤 3:中心服务器通过加权平均方法聚合来自所有用户的参数,得到全局模型,并将其下发至所有用户。用户按照步骤 2 开始新一轮的训练。上述联邦学习过程将反复迭代,直至模型收敛或达到最大训练轮数。

根据分布式用户持有数据的情况,可以将联邦学习分为横向联邦、纵向联邦和联邦迁移。其中,横向联邦适用于数据集中的用户特征重叠较多而用户重叠较少的情况,例如两个金融公司的用户数据;纵向联邦适用于数据集中的用

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值