- Introduction
目前为止,还没有同时利用结构和语义信息进行本体摘要的方法。基于此,本文将一个RDF/S数据库看成两个不同的但是相互连接的图:模式层图和数据层图。这样做就能在考虑所有数据的前提下给出本体摘要。
具体来说,本文的贡献主要如下:
- 提出了自动生成RDFS摘要的新平台,通过实例概括出模式层中最具代表性的概念。
- 为了构建图摘要,本系统综合利用了知识库中的结构信息和语义信息。将模式层和数据层的节点分开,根据属性的类别(用户定义或标准RDFS属性)设定不同权重[d1] ,以选择本体中最重要的和最相关的概念。
- 为了识别重要概念,基于节点的相对基数和入度/出度定义了“相关度”指标。
- 我们想建立的摘要是针对原模式图的子图,因此,在筛选重要节点的基础上,我们接下来选择合适的路径来连接重要节点。我们通过两种算法,选取全局或局部最重要的边。
- 我们给出了相关算法,阐述了其应用细节和复杂度。
- 我们的实验分析结构显示了我们算法的优越性。开始,我们将自己的算法和仅抽取重要概念的算法结构进行对比,展示了我们算法的优越性。然后,我们发现通过全局重要性的子图选择算法在几乎所有情况下都表现最好。
据我们所知,本文算法是唯一结合本体模式层和数据层进行摘要的算法。支持通过高质量摘要模式图进行知识库的探索。
我们作品的前身已经在之前的RDF Digest文章里写过了。本文扩展了我们之前的工作。解决了处理空白节点的问题。本文提出了一种选择重要概念间连边的新算法,并提供了实现细节和复杂度分析。升级后的系统提供了更多元数据,来提升本体理解。提出了一种对带实例本体的用户评估方式,并用这种方式评估了本文得到的摘要图的质量。此外,对比了本文算法和另外一种算法的运行时间。
本文架构:第二章介绍了我们之前研究的算法,第三章描述了我们算法中用到的用来筛选重要节点和连边的公式。第四章提出了两种选择边的方法,第五章给出了实现的系统。第六章对结果进行评估,第七章介绍了相关工作。最后,第八章对全文进行总结展望。
- Preliminaries
目前还没有一种标准的选取RDFS图中重要节点的方法。我们的目标是生成一个简单且概括性强的摘要,同时兼顾模式层和数据层信息。我们基于RDFS进行摘要,但我们的方法同样适用于OWL,只是在操作时只考虑其中的RDFS元素。
RDF数据的表示依赖于三种资源:URIs(U),literals(L)和blank nodes(B)。在本文中我们考虑三种资源:classes(C<U^B), properties(P<U), individuals(I<U^B)。集合C包括所有的类,包括RDFS类和XML数据(string, integer)。集合P包括所有属性,除了链接实例和类的rdf:type。集合I包括除字面量外的所有实例。
本文将模式层和数据层分成两个不同的图(Gs,Gi)。模式层中的属性可以有多个定义域和值域。属性的URI作为边的标签。这两个图通过一个函数联系起来,这个函数决定了每个实例对应的上层概念。
定义:RDFS/KB:一个RDFS/KB是一个四元组。V=(Gs,Gi,v,t).其中v是边到URI的映射,t是实体到概念的映射。
P(v1,v2)表示一条边,s表示模式层中的节点,c表示类节点。i表示实例节点。dpath(vs->vi)表示两点之间路径长度。
- Assessment Measures
寻找能高效描述整个模式层,并反映数据层数据分布的概念。本节给出了模式层摘要需要有的属性。
-
- 评估模式层节点重要性
已有算法利用PageRank在xml文件中计算节点重要性。对于RDFS,其他方法用了如度中心性、介数中心性、特征向量中心性(加权的PageRank和HITS),对各种参数记性整合以表明RDFS的特性。还有人将度中心性和接近中心性结合用来计算节点间的相关度。
在本文中,我们认为模式层节点的重要性应该通过其邻接点和节点的可达性来计算。节点在数据层和模式层的连接我们都考虑在内。
具体地,我们首先通过节点对应的实例个数决定其重要性。随后,我们结合节点的相对基数和在模式层的出边、入边数量和类型,来估计节点的重要性。最后,模式成节点的相关性通过对比其与邻接点的中心性决定。
-
-
- 相对基数
-
然后就是各种参数的介绍。最后算出节点重要性。
- RDFS模式层摘要的构建
- 通过coverage maximization选择子图
选择路径的原则:1)路径中所含节点的relevance 2)与路径中节点相关的实例 3)路径长度。
根据以上三原则,制定了路径coverage的计算方法。
整个摘要的生成过程如上图所示。把这种方式生成的摘要成为CM 摘要模式图。
证明了上述方法生成的摘要确实是CM摘要。所谓的CM摘要满足以下三个条件:
- 所有重要性top n的节点都在摘要中
- 所有top n的节点相互可达
- 被选中的两点间path都是两点间coverage最大的path
分析了算法复杂度,复杂度小于O(|V|^2)。
-
- 通过relevance maximization选择子图
定义了路径的reference是其中包含的各个节点的reference。
定义了RM摘要需满足以下条件:
- 所有重要性top n的节点都在摘要中
- 所有top n的节点相互可达
- 被选中的两点间path都是两点间reference最大的path
证明了上述方法生成的摘要确实是RM摘要。
分析了算法复杂度,复杂度小于O(|V|^3)。
- Evaluation
总共用了6个本体进行评估:BIOSPHERE, Financial, Aktors Portal, CRM, LUBM, eTMO。
通过3个阶段评估算法的有效性:
阶段一:前三个本体用于对比本文算法和identifying key concepts的算法和personalized算法。比较这三个算法筛选重要概念节点的能力。阶段一本体数据都仅有模式层。
阶段二:为了给包含实例层的本体做实验,用了接下来三个本体数据,与Peroni等人的数据进行对比。
阶段三:因为我们的系统是唯一返回整个图作为结果的系统,在最后阶段我们将自己生成的结果与标准本体作对比。
最后,我们根据运行时间评估了自己算法的效率,并与Peroni等人的算法运行时间对比。所有实验数据都可以在网上获得。http://www.ics.forth.gr/~kondylak/SWJ_2016.zip
[d1]这个权重大小是人为规定的。如何设计一种算法生成权重?