《推荐系统笔记（十一）》Learning to rank（LTR排序问题）的介绍和RankNet算法（内含详细推导）

最新推荐文章于 2024-08-01 07:30:00 发布

wangxinRS

最新推荐文章于 2024-08-01 07:30:00 发布

阅读量1.4k

点赞数 4

分类专栏： LTR 文章标签：推荐系统

本文链接：https://blog.csdn.net/qq_30841655/article/details/107729212

版权

LTR 专栏收录该内容

1 篇文章

订阅专栏

前言

在美团、大众点评等网站上输入某个关键词时，这些网站该如何对相关的文档进行排序，也就是说，应该将哪个文档排在前面，将哪个文档排在后面。

这就涉及到LRT排序问题。本篇博客将简要介绍LTR问题，并对RankNet进行详细推导。

训练数据

刚接触LTR问题，可以从认识它的训练数据开始。

我们将输入的关键词称为 $q u e r y$ （查询词），搜集到的所有文档集合，记为 ${doc_1, doc_2, ..., doc_N\}$ ，每个文档都和这个 $q u e r y$ 有关。

训练数据就是由 query，docs和标注三者组成的。举个例子，

query 1，query 2，query 3
$doc_{11}$ ， $doc_{12}$ ， $doc_{13}$
$doc_{21}$ ， $doc_{22}$ ， $doc_{23}$
$doc_{31}$ ， $doc_{32}$ ， $doc_{33}$
…，…，…
标注1，标注2，标注3

实际上，训练集有三种形式，也就对应着三种方法。

point-wise

第一种是point-wise，意思是，对query下的每一个doc都进行标注，

可以是二分的，如标注相关或者不相关
可以是多分类的，如标注 perfect（完美）、excelent（出色）

point-wise的训练集中，每一条数据是这个样子的

query1，doc1，标注（相关）
query2，doc2，标注（不相关）
query3，doc3，标注（相关）

我们可以通过常规的分类模型，如LR、SVM、GBDT等，输入为query和doc，输出为标注。

pair-wise

第二种是pair-wise，意思是，对query下的任意两种doc的相对顺序， $doc_i, doc_j>$ 进行标注，标注标签为{+1, -1, 0}。

当标注为+1时， $doc_i, doc_j>$ 意思是 $doc_i$ 在 $doc_j$ 前面，也就是说 $doc_i$ 比 $doc_j$ 要和query更相关
当标注为-1时， $doc_i, doc_j>$ 意思是 $doc_i$ 在 $doc_j$ 后面，也就是说 $doc_j$ 比 $doc_i$ 要和query更相关
当标注为0时， $doc_i, doc_j>$ 意思是 $doc_i$ 和 $doc_j$ 与query的相关程度一样

pair-wise的训练集中，每一条数据是这个样子的

query， $doc_1, doc_2>$ ，标注（+1）
query， $doc_2, doc_1>$ ，标注（-1）
query， $doc_1, doc_3>$ ，标注（+1）
query， $doc_3, doc_2>$ ，标注（-1）

list-wise

第三种是list-wise，意思是，对query下的整个doc列表进行标注。我们将训练集中的数据记为 $(x, y)$ ， $x$ 为特征向量， $y$ 为标注，则list-wise里面， $x=(query, doc_1, doc_2, ..., doc_N)$ ， $y$ 则为标注。

比如，在美团中输入“烤鱼”，页面会显示出 $N$ 个烤鱼文档，这些烤鱼文档都是排好序的，因此，数据可以记为 $x=("烤鱼", doc_1, doc_2, ..., doc_N)$ ， $y$ 为标注（例如很好之类的）。

RankNet算法

这里，我们介绍一种pair-wise的算法，RankNet算法。具体内容如下，

我们通过一个打分函数来给query下的所有文档进行打分，打分函数为 $s = f (d o c; w)$ 其中， $w$ 为我们要优化的参数
对于文档 $doc_i$ 和 $doc_j$ ，给它们打分为 $s_i=f(doc_i; w)$ 和 $s_j=f(doc_j; w)$ ，这样，我们可以通过比较得分，来获得两个文档之间的相对位置，即
$label(<doc_i, doc_j>)=\left\{ \begin{array}{lll} +1 &if& s_i>s_j\\ 0 &if& s_i=s_j\\ -1 &if& s_i<s_j \end{array}\right.$
对于训练的数据集 $doc_i, doc_j>, S_{ij})$ ， $S_{ij}\in\{+1, 0, -1\}$ ，我们可以将这个标签一一映射为概率 $\bar P_{ij}$ ，即 $\bar P_{ij}=\frac{1}{2}(1+S_{ij})$
对于数据 $doc_i, doc_j>$ ，我们预测得到的标记为+1的概率 $P_{ij}$ 记为 $P_{ij}=sigmoid(s_i-s_j)=\frac{1}{1+e^{-(s_i-s_j)}}$ 这样，我们就可以说
$label(<doc_i, doc_j>)=\left\{ \begin{array}{lll} +1 &if& P_{ij}<0.5\\ 0 &if& P_{ij}=0.5\\ -1 &if& P_{ij}>0.5 \end{array}\right.$
现在，我们有了标注+1的实际概率 $\bar P_{ij}$ 和预估概率 $P_{ij}$ ，对于给定的单个数据 $doc_i, doc_j>, S_{ij})$ ，我们可以写出损失
$\begin{array}{lll} C_{ij}&=&-\bar P_{ij}logP_{ij}-(1-\bar P_{ij})log(1-P_{ij})\\ &=&-\left[\frac{1}{2}(1+S_{ij})log\frac{1}{1+e^{-(s_i-s_j)}} +\frac{1}{2}(1-S_{ij})log\frac{e^{-(s_i-s_j)}}{1+e^{-(s_i-s_j)}}\right]\\ &=&-\left[\frac{1}{2}(1-S_{ij})(-(s_i-s_j))+log\frac{1}{1+e^{-(s_i-s_j)}} \right]\\ &=&\frac{1}{2}(1-S_{ij})(s_i-s_j)+log(1+e^{-(s_i-s_j)}) \end{array}$

对损失 $C_{ij}$ 关于参数 $w_k$ 求导，有
$\begin{array}{lll} \frac{\partial C_{ij}}{\partial w_k}&=&\frac{\partial C_{ij}}{\partial s_i}\frac{\partial s_{i}}{\partial w_k}+\frac{\partial C_{ij}}{\partial s_j}\frac{\partial s_{j}}{\partial w_k} \end{array}$
这里， $\frac{\partial s_{i}}{\partial w_k}=\frac{\partial f(doc_i; w)}{\partial w_k}$ 且 $\frac{\partial C_{ij}}{\partial s_i}=\frac{1}{2}(1-S_{ij})-\frac{e^{-(s_i-s_j)}}{1+e^{-(s_i-s_j)}}$ 且 $\frac{\partial C_{ij}}{\partial s_j}=-\frac{1}{2}(1-S_{ij})+\frac{e^{-(s_i-s_j)}}{1+e^{-(s_i-s_j)}}$

不难发现， $\frac{\partial C_{ij}}{\partial s_i}=-\frac{\partial C_{ij}}{\partial s_j}$ 。令 $\lambda_{ij}=\frac{\partial C_{ij}}{\partial s_i}$ ，则
$\begin{array}{lll} \frac{\partial C_{ij}}{\partial w_k}&=&\lambda_{ij}(\frac{\partial s_{i}}{\partial w_k}-\frac{\partial s_{j}}{\partial w_k}) \end{array}$ 考虑总体损失，我们有
$\begin{array}{lll} \frac{\partial \sum_{i,j}C_{ij}}{\partial w_k}&=&\sum_{i,j}\lambda_{ij}(\frac{\partial s_{i}}{\partial w_k}-\frac{\partial s_{j}}{\partial w_k})\\ &=&\sum_{i,j}\lambda_{ij}\frac{\partial s_{i}}{\partial w_k}-\sum_{i,j}\lambda_{ij}\frac{\partial s_{j}}{\partial w_k}\\ &=&\sum_{i,j}\lambda_{ij}\frac{\partial s_{i}}{\partial w_k}-\sum_{j,i}\lambda_{ji}\frac{\partial s_{i}}{\partial w_k}\\ &=&\sum_{i,j}\lambda_{ij}\frac{\partial s_{i}}{\partial w_k}-\sum_{i,j}\lambda_{ji}\frac{\partial s_{i}}{\partial w_k}\\ &=&\sum_{i}(\sum_j\lambda_{ij}-\sum_{j}\lambda_{ji})\frac{\partial s_{i}}{\partial w_k}\\ &=&\sum_i\lambda_i\frac{\partial s_{i}}{\partial w_k} \end{array}$