KG for IR(2017WWW)

在这里插入图片描述
Semantic Scholar (S2)于2015年底推出,旨在帮助研究人员在不挖掘无关信息的情况下找到论文。这个项目很成功。它目前的产品排名系统是基于ElasticSearch中的基于词的模型,该模型在一个learning to rank 体系中将查询词与论文的各个部分相匹配,并结合文献特征,如引文数和发表时间。分析S2的查询日志发现,在线流量中很大一部分是关于计算机科学概念或研究主题的即席查询。这种查询背后的信息需求有时很难满足基于术语频率的排名模型。例如,输入“dynamic programming segmentation”查询的用户有一个复杂的语义意图。大致描述为“使用动态规划算法解决分词问题的NLP论文”。我们使用用户点击的错误分析发现,基于单词的排名模型有时无法捕捉到此类查询背后的语义含义。这是S2排名中的一个主要误差源。
本文介绍了一种利用知识图中的语义信息将查询和文档连接起来的新的排序技术ESR。首先利用S2的语料库和Freebase建立了一个学术知识图。知识图包括概念实体及其描述、上下文关联、与作者和场所的关系以及从图结构中训练出来的嵌入。我们将这个知识图和嵌入应用到我们的排名任务中。查询和文档由知识图中的实体表示,为排名提供了“智能语法”。在嵌入空间中计算查询与文档实体之间的语义关系,为相关实体之间提供软匹配。ESR使用两阶段池来概括这些基于实体的匹配来查询文档排名特性,并使用一个学习排序模型来组合它们。

QUERY LOG ANALYSIS 查询日志分析

S2目前的排名系统建立在ElasticSearch的向量空间模型之上。它根据查询词的tf.idf和论文标题,摘要,正文和引文上下文的二元语法来计算排名分数。 静态排名功能也包括在内,例如,引文数量,近期引文和发布时间。
S2网络流量的不断增加使得研究学术搜索中的信息需求成为可能,这对于指导排名模型的发展具有重要意义。例如,如果用户主要搜索论文标题,则排名将是直接的精确匹配;如果用户主要搜索作者姓名,则排名将主要涉及名称消歧、聚合和识别。

 手动标注了S2 2016年前6个月400个最频繁查询的意图。根据搜索结果和单击次数对查询进行标记。结果表明,需求可分为以下几类:

在这里插入图片描述

a为查询分布情况,b为查询失败的原因分布情况
这些失败查询是根据查询日志中的平均单击深度选择的:单击越低,S2的性能可能越差。在点击次数超过10次的查询中,我们手动标记了前200个执行最差的查询。错误类型的分布如图b所示。失败的两个主要原因是作者姓名未被识别(22%)和概念未被理解(20%)。S2的作者查询策略是显示作者的页面。当作者姓名不被识别时,S2会根据论文与作者姓名的文本相似度使用其正常排名,这通常会导致不相关的论文。当S2返回与概念查询的语义不正确匹配的论文时,会出现“concept not Understanding”错误。由于这是S2的排名部分最大的错误源,我们进一步分析了是什么使这些查询困难。困难的第一部分是精确匹配信号中的噪声。由于语言的多样性,查询词在相关文档中出现的频率可能不够高(词汇表不匹配),例如,“softmax categorization”与“softmax classification”。查询概念的分割也是一个问题。例如,整个查询“natural language interface自然语言接口”应该被视为一个整体,因为它是一个信息单元,但是排名模型匹配查询的所有单词和n-grams,结果由流行短语“自然语言”控制。
在这里插入图片描述
第二部分更为微妙,因为它涉及到查询概念的含义。查询概念可能有多个方面,而一篇论文最频繁提到的可能并不涉及最重要的方面。例如,“本体构建”是关于如何构造本体的,但可能不是关于如何构造特定的本体;“动态规划分割”是关于分词,其中动态规划是必不可少的,但不是关于图像分割。综上所述,我们的分析发现查询文档的文本相似性与其语义相关性之间存在差距。

KG

实体

知识图谱可以从两个不同的来源收集:语料库(语料库)和Freebase。语料库实体是从S2的语料库中自动提取的关键短语。关键词抽取是一项广泛研究的课题,其目的是为文档找到具有代表性的关键短语,例如,近似于一篇论文中人工指定的关键词。本文使用S2的产生式系统提取关键词,从论文的标题、摘要、引言、结论和引文上下文中提取名词短语,并在具有频率和位置等典型特征的关键短语排名模型中选出排名靠前的关键词。实体的第二个来源是Freebase。尽管Freebase是一个通用的领域知识库,但是我们的手工测试发现Freebase对S2的head查询中的计算机科学概念实体有着相当好的覆盖率。

 关键词提取:C. Caragea, F. A. Bulgarov, A. Godea, and S. Das Gollapalli. Citation-enhanced keyphrase extraction from research papers: A supervised approach. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1435–1446. Association for ComputationalLinguistics, 2014.
实体链接

我们使用CMNS,它将查询或文档中的表面形式(实体提及)链接到Google的FACC1注释中最常链接的实体。虽然CMNS不提供实体消歧,但它已被证明对查询实体链接是有效的,并且计算机科学论文中的语言比在更一般的领域中更不含糊.

建立边(4种类型)
  1. Author:如果作者有一篇论文在标题中提到了某个实体,则边将该实体链接到作者
  2. Context:在整个语料库中,如果两个词同时出现超过5次(在20个单词的窗口中),则边将一个实体链接到另一个实体;
  3. Desc :边将实体链接到其Freebase描述中的单词(如果存在);
  4. Vence: 如果实体出现在会议/期刊发表论文的标题中,则边缘将实体链接到会议/期刊。

知识图G包含两种类型的实体:提取的语料库(Corpus)和Freebase,以及四种类型的边缘:作者、上下文、描述和地点。

Embeddings(2013年的方法)

使用skip-gram模型为{Author,Context,Desc,venture}边训练一个独立的嵌入模型:
在这里插入图片描述
利用典型梯度法对损耗函数 l l l进行了优化。V和U是为这种边类型的实体和尾部学习的实体嵌入矩阵(头实体矩阵和尾实体矩阵)。它们的每一行(V(e)或U(t))分别嵌入了实体e或尾部t。σ是Sigmoid函数。T是此边缘类型的所有尾部的集合。Eˆt∼t()根据尾部的频率采样负实例(负采样)。w(e,t)是实体e和尾部t连接的频率,例如,作者使用一个实体的次数

Ranking Model

Given a query q, and a set

给定一个查询 q q q和一组候选文档 D D D={ d 1 d_1 d1,…, d n d_n dn},ESR的目标是找到一个排名函数 f f f q q q D D D | G G G),它使用存储在知识图谱 G G G中的显式语义更好地对 D D D进行排序。显式语义包括实体( E E E={ e 1 e_1 e1,…, e E e_E eE }和边。

Entity Based Representations 基于实体的表示

ESR通过使用CMNS链接的实体注释构造的实体包来表示查询和文档。每个查询或文档都由一个向量(EqorEd)
表示。向量中的每个维度对应于查询或文档注释中的一个实体 e e e,权重是被注释到它的实体的频率。

Match Query and Documents in the Entity Space 匹配实体空间中的查询和文档。

ESR使用知识图谱嵌入来匹配查询和文档的实体表示。ESR首先计算查询文档实体转换矩阵。矩阵中的每个元素是查询实体 e i e_i ei和文档实体 e j e_j ej之间的连接强度,根据它们嵌入的余弦相似度计算:
在这里插入图片描述
实体矩阵中的分数为1表示实体空间中的完全匹配。识别文本中的实体,对齐实体的不同表面形式,并在实体级别进行精确匹配。我们称这种效果为“smart phrasing’”。分数小于1的识别相关实体作为知识图结构的函数,并提供软匹配信号。然后ESR通过两个池化步骤将实体转换矩阵中的精确匹配和软匹配进行泛化,以查询文档排序证据。第一步是沿着查询维度进行最大池化:
在这里插入图片描述
在这里插入图片描述

第二步是一个bin-polling(柱状图)来统计不同强度的匹配:

在这里插入图片描述
在这里插入图片描述
是第 k k k个bin的范围。 B k B_k Bk是得分属于此bin的文档实体数。
max pooling使用embeddings将每个文档实体与其最相似的查询实体匹配,如果存在的话,这是完全匹配的。它的分数描述了文档实体与查询的密切关系。bin-polling统计与查询具有不同连接强度的文档实体的数量。范围为[1,1]的箱子对精确匹配进行计数,其他箱子(范围可能是0-0.2,0.2-0.4,0.4-0.6,或者0-0.4,0.4-0.8等等)生成软匹配信号。这两个池步骤一起汇总实体匹配,以查询文档排名证据。

Ranking with Semantic Evidence 语义证据排序

bin分数B用作Learning to Rank的特征,以便在ESR中对模型进行排名

在这里插入图片描述
其中 f f f S _S S 2 _2 2 q q q d d d)是来自 S S S 2 2 2的生产系统的分数, w 0 w_0 w0 W W W是要学习的参数, f f f q q q d d d | G G G)是最终的排名得分。根据实体嵌入训练的边缘类型,ESR有四种变体:ESR author、ESR Context、ESR Desc和ESR venture。
在基于实体的表示中,精确匹配允许ESR以原则性的方式将多个单词视为一个单元,而知识图嵌入允许ESR通过软匹配来描述语义相关性。

实验

Ranking Benchmark 排名基准

 http://boston.lti.cs.cmu.edu/appendices/WWW2016/.

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值