本文由彭鹏、邹磊等老师学者共同发表
主要思想
在分布式环境的大型RDF图上用部分评估处理SPARQL查询,方法在处理复杂查询时效率低下,进一步改进“部分评估和组装”框架,使得在分布式RDF图上应答SPARQL查询,同时提供性能保证。
关键思想:探索部分匹配的固有结构特征,过滤不相关的部分结果,同时为数据传输和响应时间提供性能保证。
有效装配算法:将部分匹配的特征融合后形成最终结果。
优化方法:进一步提高查找部分匹配的效率,在站点之间传递变量的候选项,避免冗余计算。
RDF是一个语义Web数据模型,数据=主体+属性+客体的形式三元组的集合。 RDF数据集可表示为图,主题和对象是顶点,三元组是在顶点之间带有标签的边。SPARQL是用于检索和操纵RDF数据集的查询语言,主要构件是BGP。BGP查询也可看作查询图,应答BGP查询=在RDF图上找到查询图的子图匹配项。
随着网络RDF数据的增加,分布式数据库系统处理 SPARQL查询应运而生。在许多应用程序中,RDF图分布地理或管理的站点上,并且RDF存储库分区策略不受分布式RDF系统本身控制。如欧洲生物信息学研究所建立的平台,平台的数据集由不同数据发布者提供,并根据其数据发布者管理分区。而对于在“部分评估和组装”框架中评估SPARQL查询的效率存在很大改进空间。
主要瓶颈:大量部分评估结果导致生成和组合结果的成本很高。
为了删减不相关的部分评估结果并有效地将组合形成最终结果,优化方案如下:
- 部分结果的内在结构特征,以将其压缩为紧凑的数据结构,即LEC功能