海量rdf数据管理-北京大学计算机科学技术研究所
专题 第 8 卷 第 11 期 2012 年 11 月
海量RDF数据管理*
1 2
邹 磊 陈跃国
1北京大学
关键词 :RDF数据管理 关键词检索 2中国人民大学
语义网和RDF数据
据,实现在万维网 (W eb )上交换元数据,促进网
语义网是万维网之父蒂姆 ·伯纳斯-李 (T i m 络资源的自动化处理。随着互联网的发展,对元数
B er n er s-L e e )在1998年提出的,它提供了一种在 据的研究逐步深入,出现了多种元数据标准,如DC
不同的应用和个体之间共享和重用数据的整体框 [3]
(Dublin core ) 和PICS (platform of Internet con-
[1] [5]
架 ,其核心是构建以数据为中心的网络,即web of tent selection ) 等等。这些元数据描述、组织并重
data。我们将万维网称为web of pages。万维网是利 新整理了网络信息,使用户可以更方便地利用网络
用超链接技术将不同的文档链接起来,从而方便用 数据。RDF 的基本数据模型包括资源 (resource )、
户浏览和共享文档。例如HTML (hypertext markup 属性 (property )及陈述 (statements )。
l an gu age ,超文本标记语言)文档的语法是告诉浏 资源 所有能够使用R D F表示的对象都称为
览器按照何种格式来显示文档,而并不是告诉计算 资源,包括网络上的所有信息、虚拟概念和现实
机文档中的数据分别表示什么语义信息。语义网的 事物等等。资源以唯一的统一资源标识 (u n i f or m
核心是让计算机能够理解文档中的数据以及数据与 resource identifiers ,URI )来表示,通常使用的URL
数据间的语义关联关系,从而使机器可以更加智能 是它的一个子集。不同的资源拥有不同的URI 。
化地处理这些信息。因此可以把语义网想象成一个 属性 用来描述资源的特征或资源间的关系。
全球性的数据库系统。由于语义网技术涉及面较 每一个属性都有其意义,用于定义资源的属性值
广,本文仅讨论语义网框架中的一项核心概念—— (property value )、描述属性所属的资源形态、与
资源描述框架 (re source d e scription fr amework , 其他属性或资源的关系。
RDF )。 陈述 一条陈述包含三个部分,通常称为RDF
R D F [ 6 ] 是一种数据模型,是由万维网联盟 三元组 。其中主体一定是被描
(World Wide Web Consortium ,W3C )组织的资源 述的资源,由U R I表示。客体表示主体在属性上的
描述框架工作组于1999年提出的一个解决方案,并 取值,可以是另外一个资源 (由U R I表示)或者是
于2004年2月正式成为万维网联盟推荐标准。其目 文本。
标是构建一个综合性的框架来整合不同领域的元数 要实现从万维网到语义网的转变,构建海量
* 本文作者邹磊的研究获国家自然科学基金青年基金:基于图数据库理论的海量R DF数据存储和查询