本文由学者Lei Zou, M. Tamer Özsu, Lei Chen, Xuchuan Shen, Ruizhe Huang & Dongyan Zhao于2014/08/01在《The VLDB Journal 》联合发表
本文解决了对RDF数据集的SPARQL查询的高效处理,将新技术集成到gStore系统,以统一和可扩展的方式处理对动态RDF数据集进行具有通配符和聚合运算符的SPARQL查询。方法基于图,将RDF数据存储为大图,并将SPARQL查询表示为查询图。将查询回答问题转换为子图匹配问题。为了实现高效和可扩展的查询处理,开发了新索引以及有效的删除规则和高效的搜索算法,使用此基础回答聚合查询的技术,还提出一种有效的维护算法来处理RDF存储库的在线更新。
可扩展性以及遵循RDF的实际要求:
-
带通配符的SPARQL查询。
-
动态RDF存储库。 RDF存储库不是静态的,并且会定期更新。为了支持查询此类动态RDF数据集,查询引擎能够处理频繁的更新而无需太多维护费用。
-
聚合SPARQL查询。
gStore是基于图的三元存储,可以在动态RDF数据存储库回答SPARQL查询。此时,回答查询转换为子图匹配。将RDF数据集建模为一个标记的、有向的多边图(RDF图),每个顶点对应主语或宾语。通过查询图Q进行SPARQL查询,查询图Q的子图匹配在RDF图G上提供查询的答案。
RDF图不必连接。 SPARQL查询可表示为有向标记的查询图Q,定义如下:
查询图Q是一个连通图。如果不连通