【论文笔记】Sematch: Semantic Entity Search from Knowledge Graph

提出了知识图中实体搜索的Sematch框架,该框架结合了自然语言查询处理、实体链接、实体类型链接和基于语义相似性的查询扩展。
自然语言接口(Natural Language interface, NLI)
本文涉及的查询是只有一个限定条件的实体查询,如:
位于西班牙的大学(Spain, university)
被转换为<Spain, university, ?relation >
然后被转换为SPARQL查询
由于用户查询中提到的实体类型和KG中注释实体的本体类(rdf:type)都可能过于通用或过于特定,因此提出并实现了一种基于语义相似性的类型扩展算法,用于SPARQL查询构造中的本体类丰富,以弥补这一词汇鸿沟。
本文github地址

https://github.com/gsi-upm/sematch

Sematch框架

Sematch总体架构
自然语言查询处理组件使用NLTK2执行标记化、词性标记和名称实体识别(NER)等自然语言处理任务。然后,实体链接组件检测命名实体并将其映射到KG的实例URI。在类型扩展组件中,查询中提到的类型被映射到WordNet同义词集,并基于WordNet分类法进行扩展。然后,类型同义词集通过同义词集ID链接器映射到KG的本体类uri。最后,SPARQL查询是基于之前在查询引擎中获得的类型和实体uri生成的。

基于语义相似度的类型扩展

首先用Lesk算法改编的Word Sense Disambiguation (WSD) ,将查询词映射到WordNet同义词集列表
本文中信息含量(IC)计算为IC (w) =−log P (w)
P(w)为该词在布朗标准美式英语语料库出现的概率
基于语义相似性的同义词集扩展算法
在这里插入图片描述
同义词种子集中,对其中包含的每一个词s,若其上义词不在同义词集中,且与该词的相似度高于阈值,则存入同义词集。并检测上义词的上义词与上义词的下义词是否与s相似度高于阈值;若s的下义词不在同义词集中,且与s的相似度高于阈值,则存入同义词集,并监测下义词的上义词与下义词的下义词是否与s相似度高于阈值
在构造查询之前,必须将扩展的同义词集转换为具有同义词集ID链接器的正确uri。同义词集ID链接器是类型链接函数ft: qc→t∈C的实现,它通过查找类型映射数据将同义词集链接到关联数据本体类。类型映射数据来源于YAGO2中的yagoodbpediaclasses和yagoWordnetIds。在这种形式中,来自不同知识图的本体类的uri根据其含义用WordNet同义词集统一
在类型扩展之后,提到university的实体被扩展为一个本体类uri列表。

生成查询图

通过论文【Keyword-driven sparql query generation leveraging background knowledge.】定义的图模式派生出单个限定词的实体查询的图模式集合(Graph Pattern Collection ,GPC)构造SPARQL查询
GPC是一个三元组,定义为:
GPC = {(s, p, o)|(s ∈ I ∨ s = variable) ∧ (p = variable) ∧ (o ∈ I ∨ o ∈ C ∨ o = variable)}
GPS是GPC的集合
GPC的图形模式细节前面带问号的符号表示变量,不带问号的符号是t(实体类型)和e(实体实例)。
查询生成与执行的算法:
在这里插入图片描述GPC1和GPC2代表直接的关系,GPC3-GPC6代表扩展的关系。之所以包含关系扩展,是因为KG中实体之间的关系可以是传递关系。
也就是对每个GPC,将实体实例与类型实例填入,构造一个形式化查询F。查询F被发送到用户指定的SPARQL端点,并通过删除重复来统一结果。

用GPC1查询到的university Spain如下:

SELECT DISTINCT ?x ?p WHERE {
{ ?x rdf:type dbpedia:University> } UNION
{ ?x rdf:type yago:University108286163 } UNION
{ ?x rdf:type yago:CityUniversity103036244 } UNION
{ ?x rdf:type dbpedia:EducationalInstitution> } UNION
{ ?x rdf:type yago:EducationalInstitution108276342 } .
?x ?p http://dbpedia.org/resource/Spain .
} GROUP BY ?x

评估

用精确度与召回率评估

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值