在本文中,我们将介绍 [GraphScope](GAIA-IR:GraphScope 上的并行化图查询引擎) 图交互式查询引擎 GAIA-IR,它支持高效的 Gremlin 语言表达的交互图查询,同时高度抽象了图上的查询计算,具有高可扩展性。
背景介绍
在海量数据的分析中,图查询是一种重要的工具。Gremlin 是由 Apache Tinkerpop 提出并维护的工业界标准的图查询语言,被业界流行图数据库广泛应用,例如 Neo4j 、OrientDB、JanusGraph、Microsoft Cosmos DB 以及 Amazon Neptune。而 GraphScope 中的图查询引擎 GAIA 则是业界首个开源的支持大规模分布式并行化 Gremlin 的系统。然而,尽管 Gremlin 语言的灵活性是它显著的优势,在 GAIA 系统的设计和使用中,我们也发现了一些存在的问题。
现有问题
GAIA 查询系统主要有如下几点弊病:
D1: Gremlin 算子数量繁多,并且对同种语义有多种表达。这就导致为了支持丰富的 Gremlin 算子,GAIA 中需要端到端在各个模块中添加对应的算子,并且算子实现之间可能存在冗余的计算逻辑。
例如,当我们有查看属性的需求时,Gremlin 中可以通过elementMap()
、 valueMap()
、values()
、 select().valueMap()
、 project().valueMap()
等表达方式得到类似的结果,示例如下:
gremlin> g.V().elementMap()
==>[id:1,label:person,name:marko,age:29]
==>[id:2,label:person,name:vadas,age:27]
gremlin> g.V().valueMap('name','age')
==>[name:[marko],age:[29]]
==>[name:[vadas],age:[27]]
gremlin> g.V()