零、前言
在某实验室参与数联网相关工作的一年里,我从对数联网的一无所知逐渐积累了一些粗浅的见解。回想起刚入手时搜索到的数联网解读大多都是些大气磅礴抽象词语的堆砌,很难让人快速理解数联网到底具体是个什么东西,因此写下这篇文章,用尽量简短的语言解释数联网。由于作者水平有限,本篇文章仅代表自己的见解,如有问题欢迎讨论。
一、数联网存在的意义
相较于数联网,我们所熟知的是互联网:它给每台设备一个ip地址,这样设备与设备之间就能够定位、相互交流、传递数据信息。而物联网是指给现实生活中的物理设备接入网络(比如给洗衣机一个芯片,这样不在家也能通过手机查看)。其实,它们的根本手段都是一样的——“联网”,只是关注的侧重点不同,所以叫法有所差别。
因此, “数联网” 关注的重点在于 数据 如何定位、 数据 如何流通。
我们在日常生活工作中使用互联网的时候,关注的逻辑通常是业务流程而非数据本身:
比如某企业集团内的子公司A和子公司B需要数据互通,A需要B的一些产品数据,那么B可以通过手动操作excel表导出、在项目中新建一个接口写一些业务代码从数据库导出等手段,把数据给到A。
一些简单的数据还好,但如果一些数据之间有复杂的彼此引用关系(A引用B、B引用C……)、多维的权限控制需求(谁不能查看什么数据)、精准的数据流转追溯留痕要求(手动导出成文件之后无法控制数据去向),甚至需求不仅涉及A和B两方,还涉及CDEFG等,那么整个流程将会变得更加复杂。
所以,数联网的关注点从数据出发。同样是上面的语境,我们把B产出的每条数据贴上一个标识(例如一个UUID)和一些元数据(例如它是什么时候产生的,它在哪,它是从哪个数据衍生而来,谁对它有什么权限等),把标识和元数据存到一个中心节点当中。如果A、C、D等机构有需求,它可以根据标识自己从B机构当中获取,由B机构来决定自己给不给它数据,给它什么样的数据。
可能你觉得这种操作完全多此一举毫无意义,不过没关系,你的视角已经从业务移到了数据本身上,看到的不再是一台电脑连着另一台电脑,而是一条数据连着另一条数据,这就是数联网的核心意义。
(图源https://gitee.com/BDWare/BDWare)
如果把数联网的意义说的更加宏大正式一些,那我们可以说,我们身处大数据的时代,已经从 “以计算为中心,数据用于计算” 转变为了 “以数据为中心,计算用于数据” 。之前都是数据作为输入输出,围绕计算任务组织数据;现在我们则是要基于广泛的数据来决策我们到底要做什么计算任务。这一思维的转变同样也需要基础设施的转变,因此造就了数联网。
二、数字对象架构
如果你搜索“数联网发明人”,你会搜到:
数联网基于互联网发明人、图灵奖获得者罗伯特·卡恩博士发明的数字对象架构(DOA,Digital Object Architecture),即一个基本模型(数字对象架构),三个核心系统(数字对象标识系统、数字对象注册系统和数字对象仓库系统)和两个基本协议(DOIP 协议和DO-IRP 协议)。
也就是说数联网的发明人,同样是互联网的发明人 !因此,我们稍后可以用理解TCP/IP的思维理解数联网相关技术。在此之前,我们需要先了解什么是 数字对象架构 :
(图源https://gitee.com/BDWare/BDWare)
数字对象架构(Digital Object Architecture, DOA)是由图灵奖得主,互联网之父罗伯特·卡恩提出的一种以数据为中心的开放式软件体系结构。 DOA包括一个基本模型、两个基础协议和三个核心系统。DOA基于数字对象(Digital Object,DO)模型统一抽象互联网资源以屏蔽资源的异构性。 一个数字对象分为标识、元数据、数据实体(数据源)三个部分,其中标识是数字对象的身份ID,唯一且持久的识别每个数字对象;元数据是数据的描述信息,用于发现、搜索数字对象;数据实体(数据源)则代表原始数据。 数字对象的三个部分分别由数字对象标识系统、数字对象注册表系统、数字对象仓库系统进行管理,并通过两个标准协议:数字对象标识解析协议(Digital Object Identifier/Resolution protocol,DO-IRP)和数字对象接口协议(Digital Object Interface Protocol, DOIP)进行访问,解析、搜索、使用数字对象。
上方的文字和图一起理解,简单来说就是无论你有一个什么样的东西,它是一条数据、一个excel、一张图片、一个压缩包等等,都可以被封装为一个 数字对象DO ,它有一个用于永久标识它自身的字符串称之为 数字对象标识DOI (不会随着数据在各个机构之间流转而改变),有一个元数据列表用来描述数字对象本身(名称、时间、电话、地址、它从哪些其他数字对象衍变处理而来等等),有数据源信息用来代表该数字对象实体(即本身的信息)。
在生成了这个数字对象之后,我们可以使用DOIRP协议注册到解析系统(相当于向中心节点注册自己的标识),使用DOIP协议注册到数字对象仓库(相当于把这个数字对象存储到专用的数据库当中),并且该数字对象仓库还能够根据元数据进行搜索。
三、类比TCP/IP
互联网internet这个名字的含义是inter-net,也就是跨多个网络连接到一起 ,所以我们可以说,TCP/IP协议最初的目的是连接一些各自捣鼓的异构网络,以实现互联。同样的,数联网的架构及其协议也可以用来连接一些数据空间屏蔽它们的异构性。
但随着网络的不断发展,我们会发现既然我们已经有了tcp/ip协议,理论上我们就不用考虑各个网络内部的通信协议了,干脆直接使用tcp/ip协议连接就好了。数联网也是如此,如果我们想自己在企业内部实现这种以数据为中心的网络,根本不需要考虑实现细节,直接使用数联网架构和doirp、doip协议即可。
(图源https://gitee.com/BDWare/BDWare)
我们也可以认为,tcp/ip协议是自己电脑使用的用来接入电脑互联网的协议,而doirp、doip协议是给每条数据使用,使数据接入数据大网的协议。而相对于路由器等实际设备充当了网关,我们在数联网中使用上图中的软件来充当数联网网关,以提供数据的搜索发现流转功能。如此层层网络构建上去,我们最终可以在全球范围内像DNS服务一样形成一个数字标识的全球网络,使得数据脱离机器成为全网独立可寻址的实体。
四、数联网的实际应用
数字对象架构DOA已在数字图书馆领域取得了全球性的规模化应用,即DOI系统。通过将书籍、论文、报告、视频等数字资源构建为数字对象,并分配唯一且持久的DOI标识,可以在任意一个支持DOI的应用系统中解析到该标识对应的文献实体,避免了常见的URL失效导致的资源不可访问问题。截至2021年5月,DOI系统在全球已注册了约2.57亿数字对象,覆盖了IEEE、ACM、Springer以及万方、知网等众多国内外学术数据库。
(图源:https://www.xiahepublishing.com/2475-7543/MRP-2019-075)
论文、期刊等文献后面的doi号就是这个数字对象的标识,它将成为它的唯一id,一直跟随这篇文章。这样做的好处是,我们可以到学术网站上轻松搜索到这篇文章的元信息,包括发表时间、作者等。同时,如果一篇新的文章需要引用这篇文章作为参考文献,只需要附上doi号即可,无需搜寻原文或贴上网址。这种互相引用、互相标记的关系能够将每个个体连接到一起,形成一个网状结构,这种关系我们称之为 “语用关系” ,网络则叫作 “数联网” 。
五、发展
如果你搜索数联网相关的新闻,你大概会看到许多政策支持还有各种对应的解读,其中不仅包含了我国的数字战略政策,还包含了全球范围内如欧洲美洲近几年的数字战略规划。这些文件无论是宏观方面的解读还是微观方面的建议,无外乎两种:技术方案和规章制度。使用一个不恰当的比喻,这些文件就像java当中的一个个接口,具体实现的方式可以由我们自己决定。同时,我也认为数联网科学的建设方式应该是自下而上的、上下联动的。下层有价值驱动,就会逐渐的主动探索数联网;有标识、有发现、有传输通道,那么数联网的框架就可以自己形成了;有应用场景,有使用价值,各个数联网雏形连在一起,配合上标准规范文件,就会自然形成吸引,成为新的增长点。
以上是我对数联网的理解,如有问题,欢迎在评论区讨论。