价值共创与数据安全的兼顾:基于联邦学习的政府数据授权运营模式研究

摘 要:如何在公共数据资源的开发利用中兼顾价值共创与数据安全,是我国政府数据开放事业始终面临的一大挑战。在国家“十四五”规划提出“开展政府数据授权运营试点”这一政策背景下,构建基于联邦学习技术的政府数据授权运营模式,有望解决上述问题。首先分析了基于传统API技术构建政府数据授权运营模式的局限性,进而提出利用联邦学习技术来建构政府数据授权运营新模式,并对该模式中主要参与主体、模式运作的过程逻辑以及政社主体间的新关系做了详细解析,论证了联邦学习技术与政府数据授权运营的适配性。随后,从横向联邦学习、纵向联邦学习、联邦迁移学习三种技术路径出发,分别结合电力供给与配置、个人与企业信贷评估以及医疗服务三个实际情景,呈现出基于联邦学习的政府数据授权运营模式在不同情景下达成公共数据资源开发利用目标的过程。基于联邦学习的政府数据授权运营新模式有着兼顾价值共创与数据安全的显著优势,同时也为政府数据运营机构乃至政府本身的技术与管理能力提出了新的要求。

关键词:政府数据授权运营;政府数据开放;联邦学习;价值共创;数据安全

一、引言:如何开展政府数据授权运营

激活数据要素潜能,更大程度地释放公共数据资源所蕴含的经济社会价值,是发展数字经济、数字政府和数字社会的重要目标之一[1,2]。为实现上述目标,政府数据开放工作从2015年起被纳入国家战略规划中,并在2020年被《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》进一步确立为“加快培育数据要素市场”的首要措施。本质上讲,政府数据开放是政府与社会围绕公共数据资源进行价值共创的过程。已有学者指出,政府数据开放的内核是合作治理,即以跨部门协同的方式实现经济社会价值的合作生产[3,4]。通过政府开放公共数据资源、社会主体对公共数据资源进行开发利用这一协作形式,新的知识乃至产品、服务被创造出来,最终形成一种价值共创的生态[5]。

不过,当前政府数据开放的主要运作模式——即无门槛、非定向地向全社会开放原始公共数据资源——带来了泄露国家机密与隐私信息、威胁国家安全等潜在风险,这些风险在近年也开始得到学术界的关注。学者们发现:一方面,政府工作人员可能在数据开放过程中,因主观故意或过失行为而对外泄露了国家机密[6];另一方面,即使政府开放的公共数据资源并不属于国家机密,但由于公共数据本身的独特性以及其与自然人、法人的高度关联性,不法分子有可能将这些公共数据与其他数据进行关联分析,从而导致国家机密或个人隐私的泄露[7]。因此,有研究就提出,应当重新思考政府数据开放的运作方式,在无门槛、非定向开放公共数据资源的方式之外探索新的政府数据开放形式,保证社会主体以合法、恰当的方式开发公共数据,限制不合适的数据获取与利用行为,降低政府数据开放风险的发生概率[8]。

于是,政府数据授权运营作为数据开放的一种新形式应运而生。2021年,国家“十四五”规划为鼓励第三方深化对公共数据的挖掘利用,在“加强公共数据开放共享”条目下提出“开展政府数据授权运营试点”。这为政府数据开放领域确立了一个新的研究与实践议题。

尽管目前学术界和实践界还在探索政府数据授权运营的概念内涵与运作方式,但已经形成了几点共识性的认知:第一,“授权”会贯穿政府数据授权运营全过程,即由政府授权一个特定组织(下文称政府数据运营机构)来运营公共数据资源,其他社会主体须向政府授权的这个数据运营机构来获取公共数据资源使用权[9]168;第二,为兼顾价值共创与数据安全,政府数据授权运营模式下的公共数据开发利用活动会受到更强的监管,甚至接受政府的全程监管[10,11];第三,企业、个人等各类社会主体将主要以“可用不可得”的方式利用政府开放的公共数据资源[9]170。不过,对政府数据授权运营模式的理论探讨目前主要还停留在宏观层面,有待向更微观、更实操的层面推进。

将抽象的宏观政策规划转化为有效的微观政策执行,始终是公共管理学界的重要任务[12]。那么,在国家宏观政策的指导下,如何构建一种微观可操作的政府数据授权运营模式?现有的“可用不可得”技术能否支撑政府数据授权运营工作的开展?这些研究问题还缺乏相关理论研究的探讨。本文即尝试为上述问题提供一个解答。首先,本文将分析基于传统应用程序编程接口(API)技术构建的政府数据授权运营模式存在何种局限性;其次,本文将从“联邦学习”这一新兴的隐私计算技术出发,建构基于联邦学习的政府数据授权运营模式,并结合政府数据授权运营的潜在发生场景,解释其价值共创过程,从而增进对政府数据授权运营的理论知识积累。

二、基于传统API技术的政府数据授权运营及其局限性

在政府数据授权运营活动中,政府或者政府授权的公共数据资源运营机构一般会要求社会主体以“可用不可得”的方式开发利用公共数据资源。API(Application Programming Interface,应用程序编程接口)技术是这一运作模式下的传统技术选择。

API技术是提供软件组件和服务的编程接口,能够帮助用户获取已有的数据、服务或程序组件,使其更为快速和高效地构建程序产品[13]。这种功能可以帮助政府数据运营机构对外提供数据服务。该机构可以通过开放API接口来向企业、社会组织、社会公众提供公共数据资源,从而满足这些社会主体的数据需求[14]。特别对于政府数据授权运营而言,API接口可要求社会主体在调用服务或获取数据时,必须持有政府认可的个人唯一标识码(Key),从而实现了“授权”贯穿数据开放与流通全过程,支撑更有力的政府监管(参见图1)。

图片

在政府数据授权运营中运用API技术,能够衍生出“可用不可见”和“可见不可得”两种运作模式。“可用不可见”是指社会主体不直接获取原始的公共数据资源,而是调用政府数据开放平台提供的程序功能,直接获得分析结果或服务。在这种模式下,API接口是平台为政府外部的开发者提供的服务访问接口,通过API接口,程序开发者可直接调用平台已有的程序功能为己所用,不需要了解数据的具体内容[15]。“可见不可得”是指社会主体能够了解公共数据资源的基本内容和结构,并且得到处理后的信息或者少部分原始数据,但无法得到全部的原始数据集,避免更多机密信息的泄露。在这种模式下,社会主体调用API接口获取的是格式转化与处理后的小部分数据[16]。

不过,API接口作为一种传统技术应用于政府数据授权运营,存在一定的局限性。一方面,对“可用不可见”模式而言,社会主体对公共数据资源的开发利用严重受限于平台所能提供的程序功能。政府数据授权运营平台提供的程序功能总是有限的,不可能满足社会主体的所有需求。当需求与功能不匹配时,社会主体在这种情况下缺乏拓展相关功能的机会,变得无计可施。

另一方面,对“可见不可得”模式而言,如果社会主体从API接口获得的是处理后的信息,这些主体依然有机会按照“逆向工程”逻辑反推原始数据全集。政府为避免这种“逆向工程”而对原始数据进行深度处理,又会极大削弱数据的二次开发利用价值。如果社会主体从API接口获得的是一小部分原始数据集,那么该主体可通过“少量多次”的方式获取原始数据资源的全集,使API技术丧失“可见不可得”功能,无法起到维护数据安全、减少风险发生的应有作用。这种情形下,政府只能限制社会主体的数据获取次数与总规模,这种限制同样不利于公共数据资源价值的充分释放。

因此,如要更有效、更安全地开展政府数据授权运营活动,更好地释放公共数据资源所蕴含的价值,就需要选择新技术工具,建构一套新的政府数据授权运营模式。

三、基于联邦学习的政府数据授权运营模式:结构与逻辑

政府数据授权运营的核心原则,是在保障数据安全以及原始数据(特别是涉密、涉及隐私的数据)不外流的前提下,融合政府主体掌握的数据资源与社会主体掌握的数据开发能力,实现多元主体共同参与下的价值共创。相比具有显著局限性的API技术,作为隐私计算(privacy computing)形式之一的联邦学习(federated learning)技术有望兼顾政府与社会的价值共创与数据安全需求,支撑起一套完整的政府数据授权运营新运作模式。

(一)联邦学习技术简述

联邦学习是分布式机器学习技术的一种特殊形式。这一技术可让包括政府在内的多个数据所有者在不暴露自身数据的前提下,共同协作完成模型训练任务。联邦学习用模型参

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值