知识图谱在信息检索中的应用_如何使用知识图谱增强信息检索模型?

0a4f6518586ad8004397f7b2de3d5ea5.gif

©PaperWeekly 原创 · 作者|刘布楼

学校|清华大学博士生

研究方向|信息检索

传统的信息检索模型中,文本通常使用词袋模型表示。该方法有两个较为明显的缺陷:1)只能通过 TF-IDF 等相关信号判断查询-文本相关性;2)模型没有深入理解查询和文本的语义信息,而是更多地依赖于特征工程的方法。 

近年来流行的方法主要可以分为两大类:1)通过知识图谱引入背景信息和先验知识;2)通过深度学习技术从大规模的数据中学到信息的隐性表示。 

本文主要针对第一种思路进行探讨:通过引入知识图谱中的实体以及实体的描述信息丰富语义,从而优化信息检索模型。知识图谱中的实体可以是一些概念、人名地名等等,这些实体排除介词的干扰,赋予查询和文本更简洁的表示,并引入知识图谱中的语义信息,增强信息检索模型的语义理解能力。 

本文内容将介绍五篇通过知识图谱优化信息检索模型的论文,分别是:1)基于知识图谱的学术检索模型;2)词袋和实体的结合表示优化排序;3)结合查询实体链接特征优化排序;4)基于核方法的实体重要性建模和排序优化;5)基于实体的神经信息检索模型。

97f86890208db2a5db0666b04c2c0f10.png

基于知识图谱的学术检索模型

ae81c051646ee4997c5c4274a49b6a4c.png

论文链接:http://www.cs.cmu.edu/~cx/papers/Explicit_Semantic_Ranking.pdf 论文概述

当前学术检索系统面临的主要挑战是检索系统无法理解学术概念而限制了学术检索的效果。例如“Softmax Categorization”和“Softmax Classification”表达的含义相同,但是词袋模型无法将其归为一类;而“Dynamic programming segmentation”在图像处理领域中表示语义分割,在自然语言处理领域中表示分词,但是词袋模型无法区分这两种概念。 

本提出的方法是借助知识图谱,在实体空间中对查询和文本进行表示,然后通过他们的知识图谱嵌入表示建立语义连接,从而优化查询的效果。

算法详解  该算法主要分为两个部分,第一部分是建立知识图谱,第二部分是根据查询对学术论文进行语义排序。   建立知识图谱(Knowledge Graph Construction): 建立知识图谱首先需要获取实体,论文给出两种途径: 从 S2's corpus 中抽取关键词和从 freebase 里面获得; 然后将论文中出现的 surface form 链接到实体; 再后对每个实体建立四种边,分别是作者 (author), 上下文 (context), 描述 (desc),发表刊物 (venue); 最后根据这四种边所连接的对象分别用 skip-gram 的方法得到实体嵌入表示。 语义排序(Explicit Semantic Ranking):   该部分首先将查询和文本链接的实体两两计算语义相似度:

2692ad3761aec6a2b2216a0216bf9bb9.png

然后在查询词维度上做 max-pooling 操作(相当于针对每个文本实体仅考虑和它语义相关性最大的查询实体):

f754bf04f57e44918ac40917f190e56e.png

再后在文本维度上做 bin-pooling 操作(将不同范围内的语义匹配信号各自相加,从而概括查询实体和文本实体之间的匹配情况):

66dfaeb5a6c68c6e243f451bb679a122.png

最后以此为特征输入全连接层计算得到最后的分数:

c31fa9d22bc00c158e05b3bca8942c27.png

具体的算法流程如图所示:

87aeb6ce2601f5bc2aee4aeb6fa73ff9.png

创新和发现  建立辅助学术检索的知识图谱,包括两个重要发现: 使用的 edge2vec 的方法是一种效率高且效果好的知识图谱嵌入表示方法; 使用 freebase 获得的实体相比于直接从 S2's corpus 中抽取关键词效果更好。 使用 bin-pooling 操作抽取聚合相关性信号: 该方法结合了直接匹配 (exact matching) 信号和软匹配 (soft matching) 信号,并将不同范围内的语义匹配信号各自相加,更有效的发掘查询和文本之间的语义相关信息。 e7f9b7b775cf1c4454a5efaa320d472a.png 词袋和实体的结合表示优化排序

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值