作者:Pascal Hitzler(堪萨斯州立大学计算机科学系教授,著名语义网技术专家)
原文:A Review of the Semantic Web Field,Communications of the ACM, February 2021, Vol. 64 No. 2, Pages 76-83
译者:lzm
在正式回顾语义网20年发展历程之前,我们首先需要明确一点,本文讨论的“语义网(Semantic Web)”指的是一个研究领域,而不是一个具体的人造实体或产品。这就好比人工智能是一个研究领域而非人造实体一样。
或许有一天“语义网”作为人造产品真的会出现,也有人认为我们已经建立了一部分“语义网”,但我们主要回顾的是以它为核心的研究领域。
我们的回顾是相当主观的,因为该领域存在各式各样的研究方法和应用目标,其中包括许多不同但相互联系的子社区(领域),每个子社区对该领域的最新状况可能有着非常不同的解读。
因此,我会在回顾中指出许多不同的视角和观点,而想要达成一个共识几乎是不可能的。
我们的回顾也是有选择性的,因为语义网是计算机科学与其他众多学科广泛交叉的研究和应用领域。仅仅一篇回顾不可能详尽无遗,也无法对所有重要的个人贡献给予应有的评价。
本文将从语义网的定义切入,列出该领域的发展时间表,随后主要围绕“本体论(Ontologies)”,“关联数据(Linked Data)”和“知识图谱(Knowledge Graphs)”三个阶段展开,重点介绍其中的重要概念、标准和突出成果。文章的最后我还将讨论一些具有代表性的应用领域,以及该领域未来的道路和挑战。
什么是语义网?
现在我们明确了“语义网”是一个研究领域,那它到底在研究什么?
回答也是很主观的,因为领域内尚未形成明确的共识。
一种观点认为,该领域的长期目标是创建一个“人造语义网”产品,以及一系列必须的工具和方法,对其进行维护和应用。
在这种论调中,语义网是互联网(万维网)的强化版本,充斥着机器也可以理解的信息——现有互联网大多只负责提供信息,人类要自行理解消化——以及基于这些信息的智能服务代理。
这种观点可以追溯到《科学美国人(Scientific American)》2001年刊发的一篇文章,有人认为这标志着语义网的诞生。
文章描述了通过表达性元数据(即描述数据的数据)提供机器可理解的信息。这些元数据通常采用本体形式,或者至少是有基于逻辑的语义的形式语言,允许对数据含义进行推理。
这种理解方式,再加上利用信息提供智能服务的代理,让语义网和人工智能两个领域出现了明显的重叠。实际上,在过去20年的大多数主要人工智能会议中,都有明确的语义网分支。
不过,关于语义网的理解还有另一种较为新鲜的观点:该领域开发的方法和工具,其用途与互联网无关,即使不用机器可理解的数据创建智能服务代理,也可以提供附加价值。
这样解读似乎也没有问题,毕竟“将语义网应用于信息集成和管理”是最早引发业界广泛兴趣的应用方向。因此,该领域与建立有效的、低成本的数据共享、发现、集成和重复利用的方法和工具密切相关,而互联网可能是、也可能不是其所需要的数据传输工具。
在这种视角下,该领域更接近数据库,或者是数据科学中的数据管理分支。
由此还能引出一种更严格的定义,即“语义网”是以资源描述框架(W3C标准RDF)、OWL和SPARQL为核心,研究知识本体、关联数据和知识图谱的基础和应用的领域。
三种观点各有千秋,而“语义网”或许是三者的融合:
1、该领域以知识本体、关联数据、知识图谱为核心概念,围绕RDF、OWL、SPARQL组成(数据)交换格式,在语法(一定程度上是语义)的层面形成统一;
2、该领域的应用目的是建立有效的数据共享、发现、集成和重用方法(无论是否用于互联网上);
3、该领域背后的长期驱动因素是,在未来某个时候,创造出一个具有智能服务代理的“人造语义网”。
(主观上的)时间表
“语义网”研究领域的诞