RankNet与LambdaRank

最新推荐文章于 2022-01-10 22:56:27 发布

xidianycy

最新推荐文章于 2022-01-10 22:56:27 发布

阅读量1.4w

点赞数 9

分类专栏：机器学习文章标签： RankNet LambdaRank 排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014374284/article/details/49385065

版权

在使用搜索引擎的过程中，对于某一Query(或关键字)，搜索引擎会找出许多与Query相关的URL，然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序，其流程如下：

这里写图片描述

排序的好坏完全取决于模型的输出，而模型又由其参数决定，因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法，它最早由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。

相关性概率

Cost function是RankNet算法的核心，在介绍Cost function前，我们先定义两个概率：预测相关性概率、真实相关性概率。

预测相关性概率
对于任意一个URL对( $U_i$ , $U_j$ )，模型输出的score分别为 $s_i$ 和 $s_j$ ，那么根据模型的预测， $U_i$ 比 $U_j$ 与Query更相关的概率为：

$P i j = P (U i > U j) = 1 1 + e - σ ( s i - s j )$ $P_{ij} = P(U_i>U_j) = {1\over {1+e^{-\sigma(s_i-s_j)}}}$

由于RankNet使用的模型一般为神经网络，根据经验sigmoid函数能提供一个比较好的概率评估。参数 $\sigma$ 决定sigmoid函数的形状，对最终结果影响不大。
真实相关性概率
对于训练数据中的 $U_i$ 和 $U_j$ ，它们都包含有一个与Query相关性的真实label，比如 $U_i$ 与Query的相关性label为good， $U_j$ 与Query的相关性label为bad，那么显然 $U_i$ 比 $U_j$ 更相关。我们定义 $\overline p_{ij}$ 为 $U_i$ 比 $U_j$ 更相关的真实概率，有

$p ¯ i j = 1 2 (1 + S i j)$ $\overline p_{ij} = {1\over2 }(1+S_{ij})$

如果 $U_i$ 比 $U_j$ 更相关，那么 $S_{ij}=1$ ；如果 $U_i$ 不如 $U_j$ 相关，那么 $S_{ij}=-1$ ；如果 $U_i$ 、 $U_j$ 与Query的相关程度相同，那么 $S_{ij}=0$ 。

代价函数

对于一个排序，RankNet从各个URL的相对关系来评价排序结果的好坏，排序的效果越好，那么有错误相对关系的pair就越少。所谓错误的相对关系即如果根据模型输出 $U_i$ 排在 $U_j$ 前面，但真实label为 $U_i$ 的相关性小于 $U_j$ ，那么就记一个错误pair，RankNet就是以错误的pair最少为优化目标。对于每一个pair，我们使用交叉熵来度量其预测代价，即：

C i j = - P ¯ ¯ ¯ i j l o g P i j - (1 - P ¯ ¯ ¯ i j) l o g (1 - P i j)

$C_{ij} = -\overline P_{ij}logP_{ij}-(1-\overline P_{ij})log(1-P_{ij})$

化简

C i j = - 1 2 (1 + S i j) l o g 1 1 + e - σ ( s i

最低0.47元/天解锁文章

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
5
评论
RankNet与LambdaRank

在使用搜索引擎的过程中，对于某一Query(或关键字)，搜索引擎会找出许多与Query相关的URL，然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序，其流程如下：排序的好坏完全取决于模型的输出，而模型又由其参数决定，因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法，它最早由微软研究院的Chr
复制链接

扫一扫

专栏目录

xidianycy CSDN认证博客专家 CSDN认证企业博客

码龄10年

13: 原创

30万+: 周排名

164万+: 总排名

13万+: 访问

: 等级

1069: 积分

69: 粉丝

161: 获赞

36: 评论

516: 收藏

私信

关注

热门文章

分类专栏

hadoop 2篇
机器学习 1篇
Python 4篇
推荐系统 1篇
Java 5篇
正则表达式 1篇
数据挖掘 1篇

最新评论

RankNet与LambdaRank
Pikaeye: 你做出的损失函数的图是想说明什么，横坐标的t代表什么？
MapReduce shuffle过程详解
周宇羚: 环形缓冲区之后还有一个分区操作，会对元数据根据分区和key值分别排序。博主理解的分区，应该是逻辑分区!
MapReduce shuffle过程详解
凯尔哥: 对于内存来说，也是有缓冲区的。缓冲区中的数据满了之后再真正地把数据发到内存中。
MapReduce shuffle过程详解
凯尔哥: 对的
MapReduce shuffle过程详解
junboli: 先从segment列表中把第一批取出来，以key为关键字放置成最小堆，然后从最小堆中每次取出最小的输出到一个临时文件中，这样就把这一批段合并成一个临时的段每个segment在之前的sort的阶段已经排序好了，为何这里还要进行堆排序

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。