作者 | 高鹏飞 中国银联金融科技研究院助理院长
责任编辑 | 杨琪
编者按:近几年,数据要素重要性日益凸显,数据安全、信息保护备受重视,若希望在保护好信息安全的前提下,更好地使用数据,需要借助一定的技术手段。因此,隐私计算领域成为技术热点。本文从隐私计算技术的发展背景介绍起,在梳理了主要技术分类基础上,深挖典型合作场景及重点研究方向,最后展望了隐私计算的发展趋势。
01隐私计算的发展背景
数据要素流通受制于隐私保护和数据安全要求。进入数字化时代以来,数据作为生产要素,在社会经济中发挥着越来越重要的作用。金融产业尤其是支付产业历来就具有数字基因,近年随着移动互联网、物联网、人工智能、大数据等技术在支付产业的广泛普及和应用,其数据密集型的特征愈发凸显,与此同时,机构、商户、用户三方对数据服务的需求越来越多,要求也越来越高。全面用好数据要素,充分挖掘数据要素价值红利,是支付产业乃至各行各业高质量转型发展的必然要求。由于数据本身具有敏感性、隐私性,因此,在采集、存储、传输、挖掘、使用数据的过程中,都面临着数据泄露风险,这就造成了“主观上想用客观上用不起来”的矛盾。在实现隐私保护和数据安全的前提下实现数据要素流通也就成为困扰金融机构对外合作的难题。数据孤岛的形成,一方面受政策、技术、观念的影响,不同机构、系统乃至不同行业之间数据开放程度较低,导致了数据流转不畅。另一方面,数据在应用过程中,安全问题突出,数据应用普及后,随之而来的数据贩用、滥用、违规交易甚至黑客攻击等风险事件屡见不鲜。国际上重大信息泄露事件也时有发生,如:2018年剑桥分析公司获取了Facebook(脸书)的用户数据,影响了近8700万位用户的数据安全;2019年Capital One(Capital One Financial Corporation,美国第一资本金融公司)客户信息泄露,影响了约1亿位用户。国内也有相关案例。
在数字化时代,数据安全和用户隐私保护面临着前所未有的挑战。若仍然使用常规的加密手段,数据在交换过程中得不到特殊处理,数据安全、个人隐私将更难得到有效保障。若要在保障数据安全的前提下,依法依规地挖掘数据潜能,实现多方数据融合和流通必然要借助技术的力量。在此背景下,隐私计算就为数据隐私保护与多方数据的融合提供了技术支撑:其一,是通过数据价值流通、原始数据不动的方式来实现“数据可用不可见”;其二,是通过对原始数据按用途、用量进行授权使用,并保证在使用的过程中不泄露,或是在一个安全可信的执行环境里,保障数据不出管理范围,从而实现“可用并可控”;其三,是将过程可追溯、身份信息信任等技术特性融入隐私计算方案里来实现数据可以监督、审计,在安全可用的前提下实现“可控可计量”。
简而言之,隐私计算(Privacy Computing)是一种在不暴露原始数据的情况下,让多方数据进行计算和模型训练的方法,是集合了计算机、数学、人工智能、密码学、安全和可信计算等领域知识的复合型新技术。隐私计算的起源和发展都是以现代编码学为主线,协同可信计算、人工智能等学科进行融合发展和演进。因此,隐私计算由两个方面促其产生:一是数据要素的普及和应用;二是数据隐私安全的高度重视。
政策指向上促使隐私计算快速发展。无论是与数据要素相关的政策,还是与数据隐私安全保护相关的法律法规,都对隐私计算发展有着重要影响。就国家层面的政策而言,2020年5月18日,《中共中央 国务院关于新时代加快完善社会主义市场经济体制的意见》要求,“要加快培育发展数据要素市场,建立数据资源清单管理机制,完善数据权属界定、开放共享、交易流通等标准和措施,发挥社会数据资源价值,推进数字政府建设,加强数据有序的共享,依法保护个人信息”;2022年1月6日,国务院办公厅印发《要素市场化配置综合改革试点总体方案》明确提出,探索“原始数据不出域、数据可用不可见”的交易方式,探索建立数据用途和用量控制制度,实现数据使用可控可计量;2022年4月,《中共中央 国务院关于加快建设全国统一大市场的意见》明确提出,“加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。”
此外,在地方上,上海、北京、海南、珠海、广州、成都等地都出台支持隐私计算应用的数据开发应用政策,明确指出要加强隐私计算在城市数字化转型中的应用。可见,政策指向上呈现出数据应用与数据保护并重的要求,隐私计算技术的发展愈发迫切。
促使隐私计算快速发展的另一个原因是相关法律法规的完善。从全球范围来看,截至发稿,已有逾100个国家和地区制定了数据安全隐私保护方面的政策法规,如:《欧盟基本权利宪章》将个人数据保护作为基本权利;2018年5月25日,欧洲联盟出台《通用数据保护条例》(GDPR),其中对数据主体的各项权利作了详细规定;2021年美国通过了《统一个人数据保护法》(UPDPA),为各州提供了数据隐私法案的模板。
我国也正在不断完善数据安全和隐私保护的相关制度法规。如:2021年9月正式实施《数据安全法》,主要目的是促进数据开发和利用,强调坚持安全与发展并重,并出台支持数据安全与发展的措施,建立了保障政务数据安全和推动政务数据开放的制度措施;2021年11月1日开始实施的《个人信息保护法》,构建了一个个人信息保护的框架,从整体上提高了对个人信息保护的标准,指出个人信息处理需要明确合理的目的并以个人权益影响最小的方式进行;中国人民银行也高度重视隐私计算技术,在《金融科技发展规划(FinTech)》中明确指出,要利用包括MPC(多方安全计算)在内的技术提升金融服务的安全性;全国金融标准化技术委员会(以下简称“金标委”)也颁布了《多方安全计算金融应用技术规范》;支付协会于2021年发布了团体标准《多方安全计算金融应用评估规范》;此外,我国工业和信息化部下属的中国信息通信研究院(以下简称“信通院”)这两年也持续推出了一些隐私计算的相关标准。
国内隐私计算现状。一方面,随着社会经济步入数字化转型的时代,数据已经融入居民的日常生活,数据服务嵌入社会的各个角落;另一方面,各领域对数据服务合规性要求越来越高。隐私计算已经涉及政务、金融、运营商、互联网、医疗、安防等多个领域。除了主流的金融机构、商业银行、检测机构外,一些互联网企业也加入了隐私计算的领域,如:腾讯系的微众银行首先提出了“纵向联邦”的概念,并且推出了面向工业应用的联邦开源学习平台Fate;而阿里巴巴则以蚂蚁金服为代表,提出了共享智能以及隐私计算与区块链相结合的方案;百度则是基于联邦学习的数字产品和Paddle(飞浆)中的开源框架支持联邦学习。除了以上提及的互联网公司及其产品外,也有一批专注于隐私计算产品化的初创企业不断涌现。诸多区块链、数据安全、金融风控、电信等领域的企业也纷纷投身于隐私计算技术,并积极开拓相关市场。
从国内隐私计算发展现状来看,2020年下半年起,业界对隐私计算的关注度急剧升温,市场繁荣的同时也面临竞争加剧、生态碎片化的风险。
其一,对隐私计算的需求正大量涌现。在当前数据流通需求的切实推动下,中国银联内外提出了对联邦学习数据联通技术的极大需求,如:中国银联总分子公司、外部的运营商、行业龙头企业都有应用隐私计算技术进行数据融合的需求;政府机构大数据局也有意通过隐私计算的方式建立数据交易平台。
其二,竞合加剧。关于联邦学习技术的研发,相关隐私计算平台的构建处于各方竞争中。其中商业银行竞争牵头制定隐私计算类的标准;平台性企业也加入赛道积极布局隐私计算领域;各科技公司“攻城略地”,但技术实力上参差不齐;因此呈现出“平台多、标准多”的现象,在该情况下,行业标准化的进程正在加速,如:信通院与金标委已形成互联互通标准草案,产业各方已在实质推进产品互联互通工作。
其三,专利数量快速上升。虽然我国隐私计算专利申请起步较晚,但后发性成长明显。从各类技术来看,可信执行环境和同态加密技术萌芽时间于2012年开始,且更早一些。多方安全计算、零知识证明、联邦学习和和差分隐私等技术专利激增于2018年前后。
总之,隐私计算是数据要素时代化的关键技术。随着数字化转型进程的逐步推进,一方面,行业数据意识增强,越来越多的企业管理者、从业人员认识到数据是核心生产要素、数据将逐渐成为(金融)企业的最核心资产、数据流动产生价值;另一方面,数据安全监管趋严,数据拥有权与使用权难以界定,正如上文提及的相关政策法律如《数据安全法》《金融个人数据保护条例》《个人信息保护法》已开始实施。那么,如何解答这一对矛盾?隐私计算“可控可计量”的基础特性可能会使其成为破解数据孤岛、打通数据安全融合应用的一个重要技术。隐私计算相对于传统的数据合作模式将产生巨大变革,因其能够把数据的使用权和所有权相分离,有助于拓宽数据的使用范围,促进数据更加安全有序地流动。从该角度上看,隐私计算是数据时代行业必争的制高点,也是金融科技核心关键技术的基础。
02隐私计算技术的主要分类
隐私计算的本质是通过密码学、统计学、计算机应用理论等技术来实现数据隐私保护,用以实现的理论、技术及方案较多,应用场景也比较广泛,因此隐私计算的技术分类并不唯一,在此笔者选择国内国际比较主流的两种方式进行分析。
国内分类。国内主流的方式包括联邦学习、多方安全计算和机密计算。首先是联邦学习。机器学习场景对数据需求大,如何让一个或者多个参与方在保证各自原始私有数据不超出数据拥有方的私有边界的前提下,协作完成某个机器学习的任务,这便提出了联邦学习的概念。其主要特点是“数据不动模型动”,自上而下,由场景驱动,主要采用密码学或是系统级的方式来保障参数传递的“可算不可见”,当前正在通过引入各种MPC技术补足其底层数据交互的安全性及实用性能。目前,联邦学习在国内应用中仍以两方联邦学习为主,工程化较为成熟。
其次是多方安全计算。多方安全计算是自下而上的,以密码学的理论基础为支撑,当前主要以秘密分享与同态加密作为主要的技术,适配各类的数据安全应用场景(联邦学习是其中比较热门的一个场景)。MPC的协议与工程优化研究在持续深入,目前,其性能方面处于研究突破的阶段。
最后是可信执行环境(TEE)。这是系统级隔离方法,需要依赖服务器硬件,安全性证明存在一定的黑盒因素,在中低安全以及有性能要求的场景仍然有一定的应用,可以和MPC与联邦学习结合形成更高的安全保护效果。目前这还处于低谷蓄力期。
国际分类。在国际上主要参照了Gartner的分类,将隐私计算技术分为三层:数据层、软件层、硬件层。首先是数据层,也称之为数据转换层级,直接运用隐私保护技术操作底层数据,对数据作相应转化以满足业务需求,同时又保护原始数据隐私,如:差分隐私、合成数据、同态加密等技术。
其次是软件层,亦可称为软件或者计算层级,通过在数据处理方式上利用隐私计算技术进行加密,以保护数据。如:多方安全计算、零知识证明,联邦学习等技术。
最后是硬件层,即在硬件环境及硬件系统层次实现隐私数据保护,在这个环境中数据可以被安全地处理或分析。相关的主要技术有机密计算等,目前在云计算领域中较多使用这类隐私计算技术。
国内通常将隐私计算分为三大技术流派,即多方安全计算技术流派、联邦学习技术流派与可信环境技术流派。从隐私计算技术的覆盖范围来看,Gartner的分类方式更为清晰与完整。
03隐私计算技术应用的典型场景
四大典型应用场景。上文提到隐私计算具有“可算不可见”的技术特性,这决定了其应用场景需要不止一方的数据与之融合,此外,在数据传输过程中,对隐私性保护要求较高,这就是隐私计算应用的场景。伴随着我国大数据产业的持续发展及数据安全共享的需求快速迸发,隐私计算技术的应用场景越来越多。金融行业具有较好的数字信息化基础,在央行金融科技规划的指引下,成为隐私计算应用探索的主力军。金融行业的应用主要包括风险防控、精准营销、反欺诈、反洗钱等领域。除金融领域外,其他行业不同场景对数据联合计算也有着强烈的需求,尤其是一些数据敏感度高的领域、特定场景,如政务、医疗等。从实践功能的角度来看,实现隐私计算的典型应用场景包含安全求交、匿踪查询、联合分析、联合建模四大场景。
一是安全求交。安全求交指原始数据不出库的情况下,通过密码学的技术实现交集运算,一般在联合营销或者联合建模等场景中使用,可在不提供用户ID的情况下,寻找出双方共有的用户。
二是匿踪查询。匿踪查询是指在数据查询的过程中,数据服务方不知道数据查询方的具体查询对象。主要用于黑名单共享或者一些司法场景。如:在标签查询场景中,银行向某外部机构查询某用户的标签信息,但外部机构并不知晓哪个用户被查询,从而保护了银行的客户信息。
三是联合分析。联合分析是指原始数据不出库的前提下,通过密码学等方式进行联合统计、应用及计算。如:在跨行业经济指标分析,消费行为分析等场景中应用,实现不知晓具体用户数据的情况下得到统计分析结果。
四是联合建模。联合建模是指原始数据不出库的情况下,开展机器学习模型训练。主要涉及横向联邦、纵向联邦两大类,其中横向联邦主要是将银行间的数据进行融合,实现各方数据不出库的情况下共同构建反洗钱侦测模型;纵向联邦以反欺诈、精准营销为例,银行可通过引入外部数据源联合建模来提升模型效果,当前纵向联邦建模是隐私计算最热门的领域之一。
开展隐私计算数据合作业务的流程。开展一个场景合作,其涉及模式较多也较为复杂,但可将其分成两方——数据需求方和数据提供方。数据需求方称作Guest方,数据提供方称作Host方,二者通过联邦隐私计算平台进行信息交互和任务发起。双方开展隐私计算数据合作业务主要有四个流程
其一,节点发现。数据提供方要准备特征数据,数据需求方除了需要准备特征之外,还需带有场景标签数据,双方都需部署一个互通的隐私计算平台,即先将网络打通,再进行测试和验证。
其二,准备数据。在数据准备阶段,双方会将各自的特征数据或是标签数据上传到各自的隐私计算平台。数据上传后需要节点的数据授权,通过一系列数据管控策略对数据使用进行一定的访问控制。
其三,发起任务。数据需求方发起任务,数据提供方进行任务确认,每个任务可能包含了一次联邦求交、建模等任务交互步骤。
其四,模型导出或在线预测。建模完成之后,联邦学习的模型分布在数据需求方和数据提供方两侧。如果需要在线部署,还需要联合在线预测,此时才算是模型正式上线。
图1 开展隐私计算数据合作业务的主要流程
制图 | 高鹏飞
(本文系《金卡生活》编辑部根据2022年4月22日中国银联金融科技研究院助理院长高鹏飞,做客中国银联支付学院“金融科技大咖讲堂”内容整理而成,已经授课人审阅)