![0a4f6518586ad8004397f7b2de3d5ea5.gif](https://i-blog.csdnimg.cn/blog_migrate/63eaeb31e1935eebc4746eca5d266466.gif)
©PaperWeekly 原创 · 作者|刘布楼
学校|清华大学博士生
研究方向|信息检索
传统的信息检索模型中,文本通常使用词袋模型表示。该方法有两个较为明显的缺陷:1)只能通过 TF-IDF 等相关信号判断查询-文本相关性;2)模型没有深入理解查询和文本的语义信息,而是更多地依赖于特征工程的方法。
近年来流行的方法主要可以分为两大类:1)通过知识图谱引入背景信息和先验知识;2)通过深度学习技术从大规模的数据中学到信息的隐性表示。
本文主要针对第一种思路进行探讨:通过引入知识图谱中的实体以及实体的描述信息丰富语义,从而优化信息检索模型。知识图谱中的实体可以是一些概念、人名地名等等,这些实体排除介词的干扰,赋予查询和文本更简洁的表示,并引入知识图谱中的语义信息,增强信息检索模型的语义理解能力。
本文内容将介绍五篇通过知识图谱优化信息检索模型的论文,分别是:1)基于知识图谱的学术检索模型;2)词袋和实体的结合表示优化排序;3)结合查询实体链接特征优化排序;4)基于核方法的实体重要性建模和排序优化;5)基于实体的神经信息检索模型。
![97f86890208db2a5db0666b04c2c0f10.png](https://i-blog.csdnimg.cn/blog_migrate/c2395a420305331487b92d74f411c914.png)
基于知识图谱的学术检索模型
当前学术检索系统面临的主要挑战是检索系统无法理解学术概念而限制了学术检索的效果。例如“Softmax Categorization”和“Softmax Classification”表达的含义相同,但是词袋模型无法将其归为一类;而“Dynamic programming segmentation”在图像处理领域中表示语义分割,在自然语言处理领域中表示分词,但是词袋模型无法区分这两种概念。
本提出的方法是借助知识图谱,在实体空间中对查询和文本进行表示,然后通过他们的知识图谱嵌入表示建立语义连接,从而优化查询的效果。
算法详解 该算法主要分为两个部分,第一部分是建立知识图谱,第二部分是根据查询对学术论文进行语义排序。 建立知识图谱(Knowledge Graph Construction): 建立知识图谱首先需要获取实体,论文给出两种途径: 从 S2's corpus 中抽取关键词和从 freebase 里面获得; 然后将论文中出现的 surface form 链接到实体; 再后对每个实体建立四种边,分别是作者 (author), 上下文 (context), 描述 (desc),发表刊物 (venue); 最后根据这四种边所连接的对象分别用 skip-gram 的方法得到实体嵌入表示。 语义排序(Explicit Semantic Ranking): 该部分首先将查询和文本链接的实体两两计算语义相似度:![e7f9b7b775cf1c4454a5efaa320d472a.png](https://i-blog.csdnimg.cn/blog_migrate/b99f2dd360b4b8ac3300f8afc84e6d60.png)