近日,国家数据局确定了18个数据基础设施建设任务(先行先试)承担地区,建设任务内容为:数场、数据空间、数据原件、隐私计算、数联网、区块链。这些概念都有什么样的内涵,他们的相互关系是怎样的?我们对网络上的信息进行了一个收集整理,汇总如下:
20241124更新:国数局发布《关于向社会公开征求《国家数据基础设施建设指引(征求意见稿)》意见的公告》,其中更新了部分名词的解释。
数据基础设施
国家数据局成立后于2023年首次提出了数据基础设施体系(如图1),左上的网络设施、安全设施是信息基础设施的核心,右下的算力设施、数据流通设施是新型基础设施的核心。
数据基础设施就是要实现人工智能三要素——数据、算力、算法的基础设施化,以支撑智能时代核心资源的广域共享与人工智能低门槛的广泛应用。
数据空间
数据空间是一个由治理框架定义的分布式系统,旨在创建一个安全可信的数据流通环境。它通过数据集成、虚拟化和语义建模等技术,实现数据的高质量共享和高效开发利用。数据空间作为网络空间的虚拟层,连接所有数据件与模型库,加工全量数据形成智能模型,是推动数字经济的重要基础设施。
可信数据空间
可信数据空间是指数据资源开放互联、可信流通的一类数据流通利用设施,其以数据使用控制为核心,以连接器为技术载体,以实现数据可信交付,保障数据流通中“可用不可见”“可控可计量”为目标,具备数据可信管控、资源交互、价值创造三大核心能力。
数据空间如何重构网络空间
空间就是有结构的一种物质客观存在形式。网络空间是一个三层架构(如图2)。最下层是计算机空间,基本结构是互联网,连接所有计算设备,加工人类抽象出的知识。中间层是信息空间,基本结构是万维网,连接所有网页,加工信息。最上层是数据空间,
首先,网络空间的基础是计算机系统,从大型的主机到小型的服务器,再到微型的微机,以及移动型的智能手机和现在嵌入型的智能物端(embodiment thing)等,都是单个的计算机系统。然后,建立连接,就有了计算机网络,形成了网络空间的物理层——计算机空间。由网络IP地址和网络传输协议构成的互联网结构,是计算机空间的基本结构,其主力应用是各类网络应用,如电子邮件(email)、远程终端(telnet)。
然后,通过万维网(World-Wide Web),形成了网络空间的逻辑层——信息空间。其基本抽象是网页(web page),核心功能都是通过网页的生成、组合、显示(html)来实现的,网页的地址和链接协议(http)构成了信息空间的基本结构,主力应用是各类网页应用,如搜索(Baidu)、网购(Alibaba)、即时通信(WeChat)。
这样形成了网络空间中的信息基础设施(information infrastructure),包括四层:底层是通信基础设施,包括光网络、接入网、卫通网、物联网;中间层是互联网基础设施,包括IP网、域名服务等;上层是万维网的各大信息枢纽网站;最后的第四层是云计算基础设施,包括超算中心、IDC、公有云、私有云等。
当前正在形成网络空间的虚拟层——数据空间。下面将探讨数据空间的本质,数据空间的新型数据基础设施,以及如何支持数据空间的主力应用AI+。
网络空间处理对象的演化规律
网络空间处理对象的演化规律是从知识到信息,再到数据(如图3、4、5)。网络计算空间是连接所有计算设备,加工人类符号化的数理知识,网格计算(Grid Computing)是这个空间的算力基础设施化;网络信息空间是连接所有网页,加工人类社会向数字空间投影的各类信息,云计算(Cloud Computing)是这个空间的算力基础设施化;网络数据空间是连接所有数据件与模型库,加工全量数据形成智能模型,算力网(Computility)是这个空间的算力基础设施化。由计算机学者在上世纪60年代提出的算力基础设施化的理想正在一步步变成现实。
图3:网络计算空间
图4:网络信息空间
图5:网络数据空间
网络数据空间预计会分成三个发展阶段,其中:2010-2020年是基于爬取数据集的大数据(BigDada)与深度学习(DeepLeaning);2020-2030年是基于连接数据件的大模型深度学习;2030-2040年阶段,我们预期是大模型连接成网,未来通用人工智能不是一个大模型能覆盖的,会有很多大模型,可能通用人工智能(AGI)需要连接网络空间里所有的模型。 除了人工智能大模型,科学计算也有很多模型,也需要与人工智能大模型用某种方式连接起来。
数据件/数据原件
20241124:国数局的新定义如下一段,但写的是什么啊?看不太懂!
数据元件提供统一标准、自主可控、安全可靠、全程监管的数据存储和加工服务,支持采用标准化工序完成数据产品规模化加工、生产和再利用,适用于大规模数据加工和生产场景。数据元件作为连接数据供需两端的“中间态”,将原始数据与数据应用“解耦”,基于数据元件相关组件,实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。
以下是原来的解释和定义:
智能时代赋予了数据新的两重属性