【阅读笔记】Ranking Relevance in Yahoo Search

最新推荐文章于 2023-10-06 13:44:03 发布

SrdLaplaceGua

最新推荐文章于 2023-10-06 13:44:03 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习读书笔记文章标签： yahoo search kdd deep learning

本文链接：https://blog.csdn.net/SrdLaplace/article/details/84563229

版权

本文探讨了Yahoo搜索中提高相关性的关键技术，包括学习排序、语义匹配特征和查询改写。研究发现，结合点击行为、时空敏感信息以及深度学习的语义匹配能有效改进搜索结果。此外，提出了一种名为LogisticRank的新型排序算法，以及利用深度学习进行语义匹配的方法。

摘要由CSDN通过智能技术生成

Ranking Relevance in Yahoo Search

Yahoo! Inc
KDD2016 Industry track best paper

ABSTRACT

queries 和 URLs 之间的 semantic gap 是搜索的主要屏障。点击行为可以帮助我们提高相关性，但是对于大部分长尾 query，点击行为过于稀疏，而且噪声过大。为了增加相关性，时间地点的敏感性对于结果也是很重要的。
本文介绍搜索中的三点关键技术

ranking functions,
semantic matching features
query rewriting。

Keywords: learning to rank; query rewriting; semantic matching; deep learning

INTRODUCTION

搜索排名早期的工作主要集中在 queries 和 documents 的 text matching，例如 BM25，probabilistic retrieval model，vector space model。
后来结合用户行为搜索结果的相关性进一步提高，例如 click modeling。

现在 state of the art 的搜索方法所展现的瓶颈使得我们需要考虑 text matching 和 click modeling 之外的方法：

semantic gap 是主要的困难（query: how much tesla -> doc: tesla price）
大量的长尾 query 使得无法利用用户行为信息
用户会把搜索引擎当作是 Q&A systems，产生越来越多的自然语言的搜索
需要考虑时空维度的信息，例如：最安全的汽车（当然是如今最安全的汽车），沃尔玛（附近的）

本文主要的贡献是：

设计了一个全新的 learning to rank 算法和 contextual reranking 算法
发展了 semantic matching features，包括 click similarity, deep semantic matching, and translated text matching
提出了 query rewriting 和搜索相关算法
提出了时空敏感的排序方案

BACKGROUND

Overview of Architecture

Yahoo search engine 可以很快的完成搜索这是因为：

平行的对一个 query 进行多个 servers
不断从 a cheaper ranking function 筛选出候选集然后再用更好一点的 ranking function 筛选

数据集被分为等大小的分片（根据 URL 的 MD5 分配），索引服务器提供接下来的服务。每个查询由先由分片处理，每个分片返回其最佳候选文档。然后将它们合并并重新排列以生成最终结果集。
在一个分片中，第一步是查找与查询匹配的所有文档，这称为召回（通常对每个查询词的文档集取交集以获取包含所有词的文档集）。然后对这些文档进行第一轮排序，对每个文档用轻量级函数进行评分。然后对分片强制执行简单的多样性约束，例如限制来自单个主机或域的文档数量。然后，从排名靠前的候选者中提取查询相关特征，然后使用更 expensive 的第二轮函数对其进行排序，也称为 Core Ranking Function。

Ranking Features

Web graph：描述文档的质量和流行程度，例如PageRank
Document statistics：计算文档的一些基本统计信息，例如各个字段中的单词数
Document classifier：文档的分类信息，例如页面的语种，主题，质量等
Query Features: term 数，query 和 term 的频率和点击率
Text match：文本匹配特征，例如：BM25
Topical matching：话题级别的相似度
Click：用户点击结果的 feedback
Time：跟时间相关的特征

Evaluation of Search Relevance

评价搜索的相关性分为 human labeling 和 user behavioral metrics。一般用 user behavioral 来评价搜索相关性会更复杂一点，因为可能受到字体，位置等的影响。本文采用 human labeling 的方式进行评价，采用的指标是 DCG ： $DCG_N=\sum_{I=1}^N\frac{G_i}{log_2(i+1)}$ ， $G_i$ 表示位置 $i$ 上的文档的相关性评分。

根据 query 的出现频率，我们可以把 query 分为头部，腰部和尾部。本文主要关注腰部和尾部的 query。

MACHINE LEARNED RANKING

搜索可以被当作二分类问题。在实验中，我们观察到具有 logistic loss 的 GBDT 通常能够减少顶部位置的不好 URL。但是它不能完美的对 URLs 进行排序。

Core Ranking

We first flat the labels “Perfect”, “Excellent” and “Good” to “Positive” (+1) and “Fair”, “Bad” to “Negative” (-1). The log likelihood (loss) is
$y\in \{1, 1\}$

Then the pseudo-response of stage $m$ is
$-g_m(x_i)=-[\frac{\partial L(y_i, F(x_i))}{\partial F(x_i)}]_{F(x)=F_{m-1}(x)}=\frac{y_i}{1 + exp(y_iF_{m-1}(x_i))}$