论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach

最新推荐文章于 2023-04-23 08:41:10 发布

村头陶员外

最新推荐文章于 2023-04-23 08:41:10 发布

阅读量3.7k

点赞数 4

分类专栏：论文机器学习--推荐系统机器学习文章标签：排序推荐文件检索 learning to rank

本文链接：https://blog.csdn.net/Mr_tyting/article/details/80554849

版权

论文同时被 3 个专栏收录

31 篇文章

订阅专栏

机器学习--推荐系统

14 篇文章

订阅专栏

机器学习

8 篇文章

订阅专栏

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！

本篇博文分享和总结下论文 $Learning\ to\ Rank: From\ Pairwise\ Approach\ to\ Listwise\ Approach$ ，论文链接listNet，参考的实现代码：实现代码

本篇论文和深度学习关系大，主要是关于排序、推荐、文件检索等方面，因为实习时涉及到一些排序模型，所以在此延伸和总结下。

pairwise优缺点

优点：

一些已经被验证的较好的分类模型可以直接拿来用。
在一些特定场景下，其 $pairwise\ features$ 很容易就可以获得。

缺点：

其学习的目标是最小化文档对的分类错误，而不是最小化文档排序的错误。学习目标和实际目标（ $M A E, N D C G$ ）有所违背。
训练过程可能是极其耗时的，因为生成的文档对样本数量可能会非常多。

那么本篇论文是如何解决这些问题呢？

在 $p o i n t w i s e$ 中，我们将每一个 $< q u e r y, d o c u m e n t >$ 作为一个训练样本来训练一个分类模型。这种方法没有考虑文档之间的顺序关系；而在 $p a r i w i s e$ 方法中考虑了同一个 $q u e r y$ 下的任意两个文档的相关性，但同样有上面已经讲过的缺点；在 $l i s t w i s e$ 中，我们将一个 $< q u e r y, d o c u m e n t s >$ 作为一个样本来训练，其中** $d o c u m e n t s$ 为与这个 $q u e r y$ 相关的文件列表**。
论文中还提出了概率分布的方法来计算 $l i s t w i s e$ 的损失函数。并提出了 $permutation\ probability$ 和 $top\ one\ probability$ 两种方法。下面会详述这两种方法。

Listwise Approach

假设我们有 $m$ 个 $q u e r y s$ ：
$Q=(q^{(1)}, q^{(2)}, q^{(3)},...,q^{(m)})$

每个 $q u e r y$ 下面有 $n$ 个可能与之相关的文档（对于不同的 $q u e r y$ ，其 $n$ 可能不同）：
$d^{(i)} = (d^{(i)}_1, d^{(i)}_2, ..., d^{(i)}_n)$

对于每个 $q u e r y$ 下的所有文档，我们可以根据具体的应用场景得到每个文档与 $q u e r y$ 的真实相关度得分。
$y^{(i)} = (y^{(i)}_1, y^{(i)}_2, ...., y^{(i)}_n)$

我们可以从每一个文档对 $(q^{(i)}, d^{(i)}_{j})$ 得到该文档的特征向量，由此可以得到该 $q u e r y$ 下的所有文档的特征向量：
$x^{(i)} = (x^{(i)}_1, x^{(i)}_2, ..., x^{(i)}_n)$
并且可知每个文档真实相关度得分：
$y^{(i)}= (y^{(i)}_1, y^{(i)}_2, ... , y^{(i)}_n)$

由此，我们可以构建训练样本：
$\ T = \begin{Bmatrix} (x^{(i)}, y^{(i)}) \end{Bmatrix}_{i=1}^m$

要特别注意的是：这里面一个训练样本是 $x^{(i)}, y^{(i)})$ ，而这里的 $x^{(i)}$ 是一个与 $q u e r y$ 相关的文档列表，这也是区别于 $p o i n t w i s e$ 和 $p a i r w i s e$ 的一个重要特征。

那么有训练样本了，如何计算 $l o s s$ 呢？
假设我们已经有了排序函数 $f$ ，我们可以计算特征向量 $x^{(i)}$ 的得分情况：
$z^{(i)} = (f(x_1^{(i)}), f(x_2^{(i)}), ..., f(x_n^{(i)}))$

显然我们学习的目标就是，最小化真实得分和预测得分的误差：
$\sum_{i=1}^{m} L(y^{(i)}, z^{(i)})$
$L$ 为 $l i s t w i s e$ 的损失函数。

概率模型

假设对于某一个 $q u e r y$ 而言，与之可能相关的文档有 ${1, 2, 3, ..., n\}$ ，假设某一种排序的结果为 $\pi$ ：
$\pi=<\pi(1), \pi(2), .., \pi(n)>$
另外一种排序结果为 ${\pi}'$ ：
${\pi}'=<{\pi}'(n), {\pi}'(n-1), .., {\pi}'(1)>$

对于 $n$ 个文档，有 $n!$ 种排列情况。这所有的排序情况记为 $\Omega_n$ 。假设已有排序函数，那么对于每个文档，我们都可以计算出相关性得分 $s = (s_1, s_2, ..., s_n)$ 。

显然对于每一种排序情况，都是有可能发生的，但是每一种排列都有其最大似然值。

我们可以这样定义某一种排列 $\pi$ 的概率（最大似然值）：
$P_s(\pi) = \prod_{j=1}^{n} \frac{\phi (s_{\pi(j)})}{\sum_{k=j}^{n}\phi(s_{\pi(k)})}$

例如有三个文档 $\ pi = <1,2,3>$ ，其排序函数计算每个文档得分为 $s=(s_1, s_2, s_3)$ ，则该种排序概率为：

这里写图片描述

对于另外一种排序，例如 ${\pi}' = <3,2,1>$ ，则这种排列概率为：

这里写图片描述

论文中总结了一些排序的性质，但是我感觉没什么卵用。

Top K Probability

上面那种计算排列概率的方式，其计算复杂度达到 $n!$ ，太耗时间，由此论文中提出了一种更有效率的方法 $top\ one$ 。我们在这里推广到 $t o p k$ 来分析总结。

上面计算某一种排序方式概率：
$P_s(\pi) = \prod_{j=1}^{n} \frac{\phi (s_{\pi(j)})}{\sum_{k=j}^{n}\phi(s_{\pi(k)})}$
排在第一位的有 $n$ 种情况，排在第二位的有 $n - 1$ 种情况，后面依次类推。相当与利用 $top\ n$ 来计算。

那么 $top\ K(K<n)$ 计算：
$P_s(\pi) = \prod_{j=1}^{K} \frac{\phi (s_{\pi(j)})}{\sum_{k=j}^{n}\phi(s_{\pi(k)})}$
同理，这里的计算复杂度为 $n * (n - 1) * (n - 2) * . . . * (n - k + 1)$ ，即为 $N! / (N - k)!$ 种不同排列，大大减少了计算复杂度。

如果 $K = 1$ ，就蜕变成论文中 $top\ one$ 的情况，此时有 $n$ 种不同排列情况：
$P_s(\pi) = \frac{\phi (s_{\pi(j)})}{\sum_{k=j}^{n}\phi(s_{\pi(k)})}$

对于 $N! / (N - k)!$ 种不同的排列情况，就有 $N! / (N - k)!$ 个排列预测概率，就形成了一种概率分布，再由真实的相关性得分计算相应的排列概率，得到真实的排列概率分布。由此可以利用 $c r o s s - e n t r o p y$ 来计算两种分布的距离作为损失函数：

这里写图片描述

例如一个查询下有三个文档 $< A, B, C >$ ：
这里写图片描述

上图中 $g$ 为有真实打分计算出的各种排列的概率分布， $f 、 h$ 为另外两种排列概率分布，我们就是需要比较那种排列概率分布与真实的排列概率分布更为接近，就用该分布的预测相关性得分作为最终得分。

ListNet

在论文中， $L i s t n e t$ 只是将上面的 $t o p K$ 中的 $\phi$ 函数变成 $e x p$ 函数：

$P_s(\pi) = \frac{\exp (s_{\pi(j)})}{\sum_{k=j}^{n}\exp(s_{\pi(k)})}$

这样不就是计算预测出的得分的 $s o f t m a x$ 了吗？实际上的确如此，在实现代码中就是这样做的，当时我直接看代码还一脸懵逼，这不就是对文档预测出来的得分做了个 $s o f t m a x$ 操作吗？跟 $t o p - o n e$ 有什么关系，仔细看论文才知道怎么回事。

$t o p - o n e$ 时，只有 $n$ 种排列情况，这大大减少了计算量。如果 $t o p K (K > 1)$ ，则需要计算的排列情况就会变多。

假设排序函数 $f$ 的参数为 $w$ ，则 $t o p - o n e$ 的排列概率分布为：

这里写图片描述

算法流程：
这里写图片描述

这里还是需要注意：是将某一个查询下的所有可能与之相关的文档列表，作为一个样本来训练。

损失函数：
这里写图片描述

参数求导：

这里写图片描述

以上就是 $L i s t N e t$ 的大体思路。

我们找出了这样排序函数 $f_w$ 后，然后利用其给文档的打分，来给文档进行排序。

个人总结

在 $p a i r w i s e$ 中，只考虑了两个文档对的相对先后顺序，却没有考虑文档出现在搜索列表中的位置，排在搜索站果前列的文档更为重要，如果前列文档出现判断错误，代价明显高于排在后面的文档。针对这个问题的改进思路是引入代价敏感因素，即每个文档对根据其在列表中的顺序具有不同的权重，越是排在前列的权重越大，即在搜索列表前列，如果排错顺序的话其付出的代价更高(评价指标NDCG)；而 $l i s t w i s e$ 讲一个查询下的所有文档作为一个样本，因为要组合出不同的排列，得到其排列概率分布，来最小化与真实概率分布的误差，这里面就考虑了文档之间的各种顺序关系。很好的避免了这种情况。
从概率模型的角度定义损失函数。
在实做时，其实将一个 $q u e r y$ 下的的所有可能与之相关的 $n\ 个doc$ 作为一个训练样本（这时可以理解 $batch\_size = n$ ），一定要注意：在计算 $top\_one\ probability$ 时，是在一个 $q u e r y$ 内的所有文档做 $s o f t m a x$ ，而不是在当前正在训练的所有的样本内做。这是区别 $p o i n t w i s e 、 p a i r w i s e$ 的重要不同之处。