排序模型入门详解（未完待续）

最新推荐文章于 2024-05-30 19:40:25 发布

lankuohsing

最新推荐文章于 2024-05-30 19:40:25 发布

阅读量5.7k

点赞数 2

分类专栏：学习笔记理论学习机器学习文章标签：排序算法

本文链接：https://blog.csdn.net/THUChina/article/details/102829797

版权

学习笔记同时被 3 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

文章目录

1. 排序问题的定义
2. 排序模型的几大类别

1. 排序问题的定义

当商家需要向用户提供多个商品供选择时，往往会遇到这个问题：如何将商品按照一定的顺序呈现给用户，以便使用户能够尽可能地完成购买流程？这就涉及到对商品的排序，用到的模型称排序模型。通常情况下，我们希望排在前面的商品是用户更大概率会点击的商品。

根据不同类型的训练数据，可以将排序模型可以分为三大类：

单点标注（point-wise）
两两标注（pair wise）
列表标注（list wise）

2. 排序模型的几大类别

2.1. point-wise排序模型

输入特征向量集合表示为 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ，其中 $x^{(i)}$ 是一个n维向量，各个维度的含义可以是商品的特征例如评分、小量、价格以及用户的特征例如性别、年龄、偏好等，以及用户和商品的关联特征例如是否点击过该商品、是否购买过该商品、对该商品的评价等，以及场景特征如时间、地点等；标签集合为 $y^{(1)},y^{(2)},\cdots,y^{(m)}$ ，其中 $y^{(i)}$ 的取值集合是一个实数，例如用户没有点击过的商品为1，用户点击过但是没购买的商品为3，用户点击并购买过的商品为10.

在上述定义的基础上，我，可以将point-wise排序模型转换为一个分类问题或者回归问题。如果将排序问题转换为分类问题，会导致输出只有预先定义的那几类（例如1，3，10），进而导致很多商品的label一样，无法进一步区分次序。因此，实际中往往将point-wise排序模型转换为回归问题。

point-wise模型的缺点是，没有考虑训练样本之间的相对顺序。例如，在某次点击事件中，用户点击了样本 $x^{(i)}$ ，在另一次点击事件中用于点击了样本 $x^{(j)}$ （且此次事件中存在样本 $x^{(i)}$ 但是用户没有点击）。根据point-wise模型， $x^{(i)}$ 和 $x^{(j)}$ 的标签一样，但这显然是不合理的（ $x^{(j)}$ 应该比 $x^{(i)}$ 更靠前才合理）。

2.2. pair-wise排序模型

在pair-wise模型汇总，我们不再从单文档的分类或者回归的角度去看待问题，而是从一个文档对 $d_1,d_2>$ 来看待问题。如果用户点击了 $d_1$ 而没有点击 $d_2$ ，那么说明 $d_1$ 比 $d_2$ 更靠前，可以把 $d_1-d_2$ 的label设置为+1， $d_2-d_1$ 的label设置为-1，对所有的文档pair进行这样标注，就得到了一系列用于二分类的训练样本。预测时，对测试集里面的所有pair进行分类，便可以得到测试集的一个偏序关系，从而实现排序。SVM Rank、RankNet、FRank、RankBoost等方法都是pair-wise模型。

2.2.1. RankNet

https://www.cnblogs.com/genyuan/p/9788294.html
RankNet提出的时候是为了解决如下搜索排序问题：给定query集合，每个query都对应着一个文档集合，如何对每个query返回排序后的文档集合。
RankNet将输入query的特征向量 $x\in R^n$ 映射为一个实数 $f(x)\in R$ .
给定query下两个文档 $U_i,U_j$ ,对应的特征向量分别为 $x_i,x_j$ ，经过RankNet前向计算得到的分数分别为 $s_i=f(x_i),s_j=f(x_j)$ .记 $U_i\rhd U_j$ 为 $U_i$ 比 $U_j$ 更靠前，在RankNet里面用如下公式表示其概率：
$P_{ij}\equiv P(U_i\rhd U_j)=\frac{1}{1+e^{-\sigma(s_i-s_j)}}\tag{2-1}$
上式其实就是用logistic回归模型来将分数之差映射到0~1之间，来近似拟合概率。 $\sigma$ 是可学习的参数
对于特定的query，记文档 $U_i,U_j$ (后文简记为文档i,j)被标记的标签之间的关联：
$S_{ij}=\left\{ \begin{aligned} &1 \ \ i比j更相关\\ &0 \ \ i和j相关性一致\\ -&1 \ \ j比i更相关\\ \end{aligned} \right. \tag{2-2}$
记 $\bar P_{ij}=\frac{1}{2}(1+S_{ij})$ 为真实情况下i比j更相关的概率。
那么可以用交叉熵来作为损失函数：
$\begin{aligned} C&=-\bar P_{ij}logP_{ij}-(1-\bar P_{ij})log(1-p_{ij})\\ &=\frac{1}{2}(1+S_{ij})(1-S_{ij})\sigma(s_i-s_j)+log(1+e^{-\sigma(s_i-s_j)}) \end{aligned} \tag{2-3}$
不难验证，上述损失函数是具有对称性的，也即 $\forall i,j,if\ S_{ij}=1$ 也即i比j更相关，有(交换i和j的位置，下式形式对应的将i和j调换就行)
$C=log(1+e^{-\sigma(s_i-s_j)})\tag{2-4}$
这个结论对于训练加速会有帮助

lankuohsing

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
排序模型入门详解（未完待续）

排序模型入门详解文章目录排序模型入门详解1. 排序模型的应用场景point-wise排序模型pair-wise排序模型Ranknethttps://yq.aliyun.com/articles/181. 排序模型的应用场景当商家需要向用户提供多个商品供选择时，往往会遇到这个问题：如何将商品按照一定的顺序呈现给用户，以便使用户能够尽可能地完成购买流程？这就涉及到对商品的排序，用到的模型称排...
复制链接

扫一扫