python知识推理知识图谱_一文了解知识图谱常见的知识表示,图谱存储和查询方法...

对于知识图谱构建,有两个问题是永远绕不掉的。一个是知识图谱的知识表示,一个是知识图谱的存储方式。这两个问题大家也比较关注,而且知识图谱的表示跟知识图谱的存储还是有一定的相关性。知识表示,可以理解为知识图谱逻辑层面的表示,即数据模型。从人的角度对知识图谱数据进行描述。物理层面的存储:从计算机的角度对数据进行组织,两者密切相关。所以就把两者放在一起做个总结。知识图谱有多种表示方式,我们只在此讨论图谱的图模型表示法和三元组表示。知识图谱逻辑层与数据层关系

一 知识表示

1.知识图谱三元组表示法

经典三元组模型比较简单,只讨论了二元关系,在实际应用中要基于三元组拓展时空知识表达能力,多模态等。需要将其拓展成四元组,五元组

1)RDF

RDF就是资源描述框架,可以理解成一种资源表示的模板,就是一种知识表达形式。就是只有实体及关系没有概念(domain和range).形式上也就是大家最常见的三元组。

RDF是一种逻辑模型,要进行存储还要进行序列化。RDF的序列化方式有N-Triples,Turtle,JSON-LD等形式。

但是RDF本身有其问题:Rdf只能表示实体与实体之间的关系,属性。但是没法定义实体的概念,概念具有的属性。但是不论是在智能的概念上,还是在现实的应用当中,概念都是相当重要的;也是知识图谱本身十分强调的。

2)RDFs

RDFschema就是为了解决RDF表示法,无法表示概念的缺陷的。RDFschema像是在RDF上层加了个外衣。定义了概念,概念的属性,属性值,概念与概念之间的关系以及约束关系。具体定义的schema的存在也让图谱具备了一些基于本体的推理能力。

3)OWL

OWL,即“Web Ontology Language”。是对RDFs的一个扩展,添加了额外的预定义词汇。使其具备更强的推理能力。

复杂关系表示:经典三元组模型只能对于一些复杂的知

1)多元关系

比如典型的事件描述场景

2)时空知识表示

需要五元组来表示。例如:公元前407年柏拉图在雅典跟随苏格拉底学习。为了表达这个,把三元组拓展成5元组。被拓展成的五元组。

3)多模态的表示

2.图模型

1.有向图

RDF模型可以天然的转化成有向图模型。所以基于RDF模型的图谱,也可以通过转化,存到图数据库中。

2.属性图

属性图示目前被图数据库业界采纳最广的一种图数据模型。属性图由节点集和边集组成,且满足如下性质:

1)每个节点具有唯一的id

2)每个节点具有一组属性,每个属性是一个键值对;

3)每条边具有唯一的id

4)每条边具有一个标签,表示联系

5)每条边具有一组属性,每个属性是一个键值对

二 知识图谱存储

1.关系表方式存储

可以选择的数据库有传统的关系型数据库,noSql数据库例如mongoDB。优点:简单,方便。缺点:需要做多次自连接,对于查询复杂的关系,效率会比较低。

2.图数据库

目前业界主要利用属性图模型来构建的。基于图的存储方式通常会构建基于图结构的索引。这类索引编码了图上的结构信息,因此对于复杂查询(特别是表达复杂的子图的查询)来说十分高效。但是在简单查询如直接查询某个实体的特定属性值方面性能优势并不明显,对于属性值多的节点,可能还比较慢。当然也有一些优化方法,比如把属性存储在mongoDB。查属性时通过mongoDB去查。

3.分布式存储

在进行分布式知识图谱管理时,不同的应用有着不同的需求,有些应用要求较高的可扩展性,但是对查询效率要求不高,对于这类应用,可以基于已有的云计算平台来搭建分布式知识图谱存储系统。而有些应用对查询效率要求很高,在这种情况下,系统往往需要自行划分数据,并依据划分结果将知识图谱数据分布到不同的机器上。具体的,大家可以去具体调查一下相关厂商的解决方案。

三 图谱查询语言

1.SPARQL

是专门针对RDF模式表示的图谱的查询语言。是一种类SQL的语言。SPARQL 能够让我们通过选择、抽取等方式从被表示为 RDF 的知识中获取特定的部分。使用sparkql需要将三元组存储于三元组存储库(triple store)。当数据被加载进三元组存储库之后,就可以使用 SPARQL 协议来发送 SPARQL 查询去查询。

2.Cypher

Cypher 是一个描述性的图形查询语言,允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询,和 SQL 很相似。大家熟悉的neo4j的语言就是cypher。

3.Gremlin

Gremlin是 Apache ThinkerPop 框架下的图遍历语言。Gremlin 可以是声明性的也可以是命令性的。虽然 Gremlin 是基于 Groovy 的,但具有许多语言变体,允许开发人员以 Java、JavaScript、Python、Scala、Clojure 和 Groovy 等许多现代编程语言原生编写 Gremlin 查询。

查询语言并不是最关键的部分,其实只要选用跟对应数据库相关的语言就行。写起来简单好用当然更好,但是并不对上层应用起什么实质的影响。

四 图数据库与图引擎

图数据库与图计算引擎是不同的概念不同。图数据库,关注点在于怎么存储,而图引擎,关注点在怎么用这些数据,针对这些数据进行查询、分析的应用。广泛应用于互联网应用、社交网络,知识图谱应用、金融风控应用等。

五 数据库的选择

图谱数据的数据库选择主要考虑图谱操作的复杂度。图谱上的操作越是复杂,图数据库的必要性越是明显。图谱上的全局计算(比如平均最短路径的计算),图谱上的复杂遍历,图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结(Join)操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化,能够实现高效图遍历操作。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
D3.js是一个非常流行的可视化库,它是基于数据的文档操作JavaScript库,可以将数据与HTML、SVG、CSS结合起来,创造出可交互的数据图表。在Python中,可以使用D3.js来创建知识图谱。通过使用D3.js的功能,可以绘制图例、展示点上的文字等。例如,可以使用D3.js来绘制图例,通过JS获取SVG布局,并加载颜色,对应不同的图例。同时,可以使用D3.js来展示点上的文字,默认情况下,展示的是该点的id,但可以根据需要自定义展示的内容。通过修改neo4jd3.js文件中的相应代码,可以实现自定义展示内容。总之,D3.js是一个强大的工具,可以帮助我们在Python中创建具有交互性的知识图谱。 #### 引用[.reference_title] - *1* *3* [[知识图谱实战篇] 三.Python提取JSON数据、HTML+D3构建基本可视化布局](https://blog.csdn.net/Eastmount/article/details/86755610)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [使用D3.js进行Neo4j数据的前端展示](https://blog.csdn.net/weixin_44455388/article/details/107250417)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值