Graph正在成为一种广泛使用的数据表示方法,因为它们提供了灵活性。因此,用于图形数据管理的数字技术越来越受欢迎。到 2023 年,图形技术将促进全球30%的组织更快地实现数据情境化。
最流行的图数据管理解决方案包括图数据库和知识图谱。
图数据库是一种包含数据实体及其关系形式的信息的数据库。它使用图形架构存储数据,并允许使用图形语言进行信息查询。
知识图谱是图数据库的一种更具表现力的变体。它们具有从图形数据库中存储的图形数据中获取新知识的附加功能。知识图有助于快速分析数据并从图数据中获得有用的见解。
在本文中,我们将讨论两种类型的知识图,即 RDF 和属性图。我们将分享关于 RDF 与属性图辩证的两面性,以帮助您了解哪种方法更适合图数据管理。
什么是知识图谱?
知识图谱是数据实体的网络及其以图谱形式说明的关系。知识图谱中的数据实体是指现实世界中的实体,例如对象、人、地点和情况。知识图谱的存储层通常是图数据库,用于以数据事实及其关系的形式存储图数据。
知识图谱可用于将任何形式的数据(结构化和非结构化)情境化为有意义的信息网络。它们是专门设计的图形,可以处理不断变化的现实世界信息。
知识图谱有两个基本要素:
- 实体: 实体指的是现实世界中的对象,例如人、地点、事件等。它们在知识图中表示为节点。
- 关系: 关系是定义数据实体如何交互的任何信息。它们表示为知识图中节点之间的边。根据节点之间的连接类型,边可以是单向的或双向的。
知识图谱的实现方式有哪些?
知识图谱可以管理和可视化异构数据,与新数据源集成,并映射来自任何数据存储的关系。有各种图形数据库根据其底层图形数据模型进行分类,包括
- RDF(资源描述框架)三重存储
- 带标签的属性图
RDF 存储和属性图的目的都是存储图形结构化数据并提供不同的方式来浏览该数据。但是这两个图数据库在结构和实现上有很多不同。
让我们对两者进行分析并进行比较分析,以帮助您在选择图形数据库时做出明智的决定。
什么是 RDF 图?
自 90 年代以来,语义网的想法——跟踪网页及其链接一直在流传。虽然语义网尚未实现,但其背后的思想得以保留并成为 RDF 三重存储的基础。
RDF 代表资源描述框架,这是一种万维网联盟 (W3C) 标准,最初是为元数据建模而创建的。Triple Stores 以三的句式结构存储和表达信息;subject-predicate-object,由一条边连接的两个节点表示。例如,乔希喜欢面包。此信息将被构造为三元组Josh-likes-bread,其中Josh中的主语,谓语likes和bread 中的宾语。
RDF 三重存储如何工作?
在 RDF 三重存储模型中,主体和客体由两个节点描述,开始和结束,代表数据实体。谓词由连接主宾节点的边表示,表示主宾实体之间的关系。
RDF 三重存储是一种标准化模型,其中每个元素都有一个统一资源标识符 (URI),允许机器唯一地识别每个主语、谓语和宾语。
RDF Triple Stores 使用标准查询语言 SPARQL 从数据库中提取信息。表示和查询数据的标准方法允许 RDF 三重存储与任何其他基于 RDF 的知识图互操作。
以下是实现基于 RDF 的知识图谱的一些优点和缺点:
RDF 图的优点
- 标准化:所有基于 RDF 的知识图都使用相同的标准框架和形式语义来存储和表示数据以及标准查询语言。由于 RDF 的网络原生语法,网络上 RDF 数据存储之间的数据共享得到了简化。
- 互操作性: RDF 三重存储遵循 W3C 支持的标准,该标准允许知识图之间的互操作性。这种互操作性允许基于 RDF 的图形相互集成和交换信息。
- 可扩展性: RDF 图允许用户添加新的节点和关系,甚至子结构,而无需重建数据库。
RDF 图的缺点
- 深度搜索复杂性:在大型 RDF 图中执行深度搜索是一项复杂的任务,因为它需要遍历每个关系。
- 严格遵守标准:存储在 RDF 中的所有信息都应采用三元组的形式,这意味着一次只能链接两个对象,这可能会限制许多用例。
什么是属性图?
属性图,也称为标记属性图 (LPG),是图数据库的一种变体,其中实体及其关系具有关联属性。属性可以是提供数据实体或关系详细信息的任何属性。属性图之所以得名,是因为它们能够包含与表示为键值对的节点和边相关的属性。例如马克写了一本书。在这种情况下,Mark是一个数据实体,表示为图中的一个节点。其关联的键值对可以是Person: Author。
属性图专注于提供更快的查询和广泛的存储。
属性图如何工作?
在属性图中,信息存储在包含源和目标实体的节点以及包含它们之间关系的边中。属性图中的节点和边由它们的内部结构识别,包括它们的唯一标识符和属性。任何节点或边都可以包含将数据属性表示为键值对的属性。
属性图没有标准的表示或信息查询。由于没有标准本体,使用属性图的组织会创建自己的语义。每个属性图都有其独特的查询语言。
以下是基于属性图实现知识图谱的一些优点和缺点:
属性图的优点
- 简单性: 属性图的设置和使用简单快捷。基于属性图的知识图对于新用户来说是一个很好的开始。
- 轻松导航:属性图更容易遍历,没有限制或标准查询语言。
- 详细:与属性图中的关系关联的属性提供了有关数据实体及其关系的更多详细信息,而无需为每个详细信息创建额外的节点。信息的解释由用户决定。
属性图的缺点
- 缺乏互操作性: 属性图中缺乏标准化使得难以与不同的数据存储共享或交换数据。唯一标识符是属性图的本地标识符,对任何其他数据库都没有意义。
- 供应商锁定:使用基于属性图的知识图的组织无法跨多个工具或系统集成其信息。被锁定到单一属性图供应商的可能性非常高。
RDF 与属性图
虽然 RDF 和属性图都作为知识图谱的存储层,但它们在以下方面有所不同:
差异 | RDF 三重存储 | 标记的属性图 |
表示 | 实体和关系以主谓宾结构表示。 | 实体和关系具有表示为键值对的关联属性。 |
查询语言 | 标准查询语言 SPARQL。 | 每个属性图实现通常都有自己的语言。 |
内部结构 | RDF 中的实体和关系没有任何内部结构,只能通过它们的 URI 来识别。 | 属性图中的实体和关系具有超越标签的内部结构,并将属性作为其身份的一部分。 |
重点 | RDF 专注于提供标准化和互操作性。 | 属性图专注于数据实体以增强存储并加快查询速度。 |
用例 | 对于需要具有缓慢变化的数据集的知识图的任何用例都很有用。非常适合需要推理或推理的场景,或者需要来自其他数据存储的信息的场景。例如,测试或评估。 | 对于需要不时需要深度遍历的动态数据集的大型知识图的任何用例都很有用,例如社交图。 |
哪种方法更适合实现知识图谱?
知识图谱处理它们使用图数据库存储和查询的大量信息。随着全球数据的不断增长和使用,对知识图谱及其底层图数据库的需求在未来只会上升。
创建知识图谱时,您可以在多个图数据库之间进行选择,最常见的是 RDF 三元存储和属性图。我们对它们各自优势和用例的分析突出了它们的独特价值。
但是,实现知识图谱的更好方法是更适合您的组织用例和要求的方法。这些要求可以包括您的组织需要的数据和存储类型,以及您的组织对知识图谱的要求。例如,社交媒体应用程序会发现属性图更适合实现他们的好友推荐功能。而金融公司更喜欢基于 RDF 的知识图谱来实施欺诈检测。
RDF 和属性图都是有益的,但也有其自身的局限性,这些局限性可以轻松解决。但一种更有成效的方法是结合 RDF 和属性图的优势。结合这两种方法可能是优化图形数据库以创建可互操作和灵活的知识图谱的重要一步。