摘要
【目的】 超大城市作为一个大规模复杂系统,具有高维全域性、动态复杂性、快速成长性的显著特征,其科学治理需要解决数据在跨领域、跨层级、跨主体等跨域场景下的高效流通问题。【方法】 针对超大城市中数源海量、数据分散、场景复杂等主要挑战,本文提出数据高效跨域流通技术框架,该框架包括基于目录生成的分布式数据标识、基于数据路由的多主体跨域调度和基于算法切片的安全协同计算等关键技术。【结果】 基于该框架构建了多层级、多粒度的目录链系统,面向北京市,支持了数千个分散数据源、上万类异质数据结构、千亿级实时数据的数据高效跨域流通,并在智能派单、证照验证等场景下进行了验证。【结论】 该框架为面向超大城市治理的数据高效跨域流通提供了一种可行技术路径。
关键词: 复杂系统; 数据流通; 数据标识; 跨域调度; 协同计算
引言
随着全球城市治理向数字化、精准化、智能化发展,数据的跨域流通成为城市治理中亟待突破的重大课题。近年来,我国围绕数据要素流通进行了一系列战略布局,2021年3月,《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出构建“城市数据资源体系”;2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》中明确要求“建立数据跨域流通体系,增强数据的可用、可信、可流通、可追溯水平”;2023年2月,党中央、国务院在《数字中国建设整体布局规划》中明确将“数据资源体系”作为数字中国建设两大基础之一。如何充分发挥数据作为生产要素的基础性和活跃性是当前发展阶段的焦点,研究数据跨域流通的技术体系是促进数据要素高效配置、推动治理体系高效协同的关键环节和重要方向,对超大城市治理具有重要意义。
当前,全球部分超大城市已具备全域数据基础,但作为一个复杂系统,超大城市具有高维全域性、动态复杂性、快速成长性,在城市级的尺度上,单点的效率提升与整体的效率提升在一定程度上是互斥的,这就造成起步越早、整合越强、应用越好的领域,反而成为城市系统中越庞大、越牢固、越独立的“孤岛”。虽然消除“孤岛”已推动了近20年,但如何在保护数据安全与隐私的情况下实现数据安全、高效的跨域流通依然是制约城市复杂系统运行和发展的瓶颈问题[1] 。尤其是在超大城市这一复杂场景中,数据呈现出跨领域、跨层级、跨主体等显著“跨域”特征,给数据资源体系构建及应用生态带来了极大的挑战。
基于以上背景,开展数据高效跨域流通技术研究,多场景、多维度解决超大城市治理中的数据发现、表示、获取及利用问题,推动数据高效跨域流通。
1 现状和问题
1.1 技术现状
超大城市治理问题需要复杂的技术体系来支撑,其中起到关键作用的是数据标识技术、数据跨域调度技术和数据隐私保护技术。
数据标识方面,传统的数据标识多借助人工进行标识,通过利用人的领域知识让数据的可用性得到提升。网络技术兴起后,基于众包的数据标识系统[2] 使得在网络广域上高效、大量利用人工知识进行数据标注成为可能。但是基于众包的数据标识系统面临着标注成本高、耗费时间长、标注质量不高等问题[3]。以深度神经网络[4] 为代表的新一代人工智能兴起后,基于深度模型的数据自动标识使数据标识问题有了新范式。基于人工智能的数据标识系统可以有效地处理大量、多样的数据并进行标注,且可以在多个标注上达到较好效果[5]。但是目前的数据标识技术更多集中于对单域单一来源数据进行数据标识,而将这一技术简单重复地应用于跨域多数据来源的数据时,其无法有效挖掘和生成数据间关系。本文采用基于目录生成的分布式标识技术,通过将跨领域、跨机构、跨层级、跨系统的单个数据采集单元重构为城市复杂系统中的一个局部执行节点,实现有效的数据跨域统一标识。
数据跨域调度方面,数据的物理运输一直是最安全、最可靠、最不可替代的方式之一,但是其成本过高且不能利用网络等现代基础设施。随着数据清洗、匹配、对齐等技术的发展,跨域数据利用障碍逐步消除。跨域数据调度技术在数据中心网络和卫星网络等场景中得到了广泛研究[6-7],但是这些研究大多集中于高效调度。随着数据隐私保护成为越来越重要的特性,为了增强数据跨域调度的安全性、可控性、可溯源性,以多方安全计算[8]、区块链技术[9]等技术为代表的一系列技术在数据跨域调度方面得到了广泛应用。但是,以多方安全计算为代表的密码学技术所带来的额外计算开销是不可忽视且严重影响系统性能的[10],且目前的数据跨域系统多解决单一的数据跨域调度问题,缺乏整合,无法满足超大城市治理场景下对数据调度的跨域、高效、安全的要求,跨域分发和传输性能不足。本文通过多粒度跨域数据的隐性关系发现的生成,有效解决了数据跨域调度过程中多粒度的跨域数据与隐性关系发现之间的矛盾。
数据隐私保护方面,差分隐私[11]等技术通过在数据上添加随机扰动解决数据在发布和联合训练过程中的隐私泄露风险,而多方安全计算、零知识证明[12] 等技术则在数据跨域流动过程中保护数据所有者和计算方的隐私。但是当前数据跨域保护技术普遍面临效率不高的问题,本文采用基于算法切片的安全协同计算技术,通过解决分布式、多粒度异构敏感数据的动态耦合问题,建立了针对性的分布式计算框架提高了隐私协同计算在超大城市跨域数据治理场景中的效率。
1.2 关键问题
超大城市治理是面向城市整体的系统性工程,数据呈现出跨领域、跨层级、跨主体等显著“跨域”特征,其数据流通包含诸多主体,涉及企业、社区、楼宇、桥梁、道路等多种静态要素,人员流动、车辆行驶等动态要素,以及人-企-物交互等关系要素;其还具有诸多显著特征,包括复杂性、不确定性、多样性等一般复杂系统的典型特征,以及实时性、成长性、快速性、交互性等超大城市治理的重要特征。加之数据的行业壁垒及隐私性和安全性要求使得领域内部统筹易、领域之间打通难,现有领域级的方法论和技术架构放大到城市级后不再适用。超大城市复杂系统下的数据治理难题主要体现在以下三方面:
(1)数源多变,现有技术体系难以实现对数据的标识。城市复杂系统拥有庞大、未知的数据源,城市多模态数据具有特征稀疏性和缺失性,无法实现对多数据源的完整、准确、自动识别,缺乏数据标识对数据跨域流通造成严重影响。
(2)数据分散,现有技术体系难以实现对跨域主体的分布管控。城市复杂系统是一个具有“全域性”的物理噪声空间,对于千万级人口、百万级企业、千万级物体的大型城市存在上万类数据结构、万亿级结构数据和ZB级半/非结构数据,由于数据及其载体物理上分散、技术上多样,复杂场景下多源异构数据存在数据找不准、定位慢等问题。
(3)场景复杂,现有技术体系难以实现对多方数据的动态耦合。大量城市级复杂场景需要多方联合建模,并对供方数据和需方算法进行“