排序算法 LTR 的评价指标

最新推荐文章于 2025-03-19 14:14:22 发布

JL_Jessie

最新推荐文章于 2025-03-19 14:14:22 发布

阅读量1.9k

点赞数 1

分类专栏：推荐系统

本文链接：https://blog.csdn.net/m0_37531129/article/details/114751863

版权

排序算法评价指标

- 排序指标
- - 1.1 MRR
  - 1.2 MAP
  - 1.3 NDCG
  - 1.4 ERR
  - 1.5 AUC

最近想要总结一下 LTR的算法。

先讲解LTR的评价指标

排序指标

信息检索和推荐系统常用排序质量评分有4种：

MRR(Mean Reciprocal Rank)：平均倒数排名。通用的对搜索推荐算法进行评价的机制，即第一个结果匹配，分数为1，第二个匹配分数为0.5，第n个匹配分数为1/n，如果没有匹配的句子分数为0。最终的分数为所有得分之和。
MAP(Mean Average Precision)：平均正确率均值。
ERR(Expected Reciprocal Rank)：预期倒数排名。
NDCG(Normalized Discounted Cumulative Gain) ：归一化折损累积增益。(DCG,IDCG,NDCG)
AUC(Area under ROC Curve): ROC 曲线下的面积。

其中MRR和MAP 只能针对二级的相关性（排序等级：相关和不相关,也就是label只有0和1）进行评分，而NDCG和ERR则可以对多级的相关性进行评分（label可以为1,2,3,4,5 五个等级）。NDCG和ERR的另外一个优点是更关注排名靠前的文档，在计算分数时会给予排名靠前的文档更高的权重。但是这两种评分方式的缺点时函数不连续，不能进行求导，所以也就不能简单地将这两种评分方式加入到模型的损失函数中去。

1.1 MRR

对于一个查询 $i$ 来说， $rank_i$ 表示第一个相关结果的排序位置，所以 $\frac{1}{|Q|}\sum^{|Q|}_{i=1}\frac{1}{rank_i}$
$∣ Q ∣$ 表示查询的数量，MRR表示搜索系统在查询集Q下的平均倒数排名值。MRR只能度量检索结果只有一个并且相关性等级只有相关和不相关两种的情况。
比如：

查询语句	查询结果	正确结果	排序位置	排序倒数
眼霜	小棕瓶精华，小棕瓶眼霜，面霜	小棕瓶眼霜	2	1/2
神仙水	skII 神仙水，兰蔻粉水, 菌菇水	skii神仙水	1	1
面膜	芦荟霜，高保湿面霜，skii面膜	skii面膜	3	1/3

$=\frac{1/2+1/3+1}{3} = \frac {11}{18}$

1.2 MAP

假定信息需求 $q_j \in Q$ 对应的所有相关文档集合为 $d_1, d_2....d_{mj}, R_{jk}$ 是返回结果中直到遇到 $d_k$ 后其所在位置前(含 $d_k$ )的所有文档的集合，则定义 $MAP(Q)^2$ 如下： $\frac {1}{|Q|}\sum^{|Q|}_{j=1}\frac{1}{m_j}\sum_{k=1}^{m_j}Precision(R_{jk})$
$∣ Q ∣$ 表示查询的数量.
其实有两种计算MPP的方法：