搜索排序评价指标

smartcat2010

已于 2024-07-08 10:31:08 修改

阅读量1.2k

点赞数

分类专栏：机器学习推荐系统文章标签：概率论算法

于 2019-11-23 20:55:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartcat2010/article/details/103218555

版权

推荐系统同时被 2 个专栏收录

44 篇文章 6 订阅

订阅专栏

21 篇文章 1 订阅

订阅专栏

信息检索中常用的评价指标：MAP,NDCG,ERR,F-measure

一. NDCG:

Normalized Discounted Cumulative Gain; rel是相关度(Gain)；i是排名位置（Discounted）, 加起来就是Cumulative

N是Normalized;

(Query是同一个p，但是分子（当前列表）和分母（最优列表）的内容可能不同）

二. MAP

Average Precision@K: 准确率和召回率都只能衡量检索性能的一个方面，最理想的情况肯定是准确率和召回率都比较高。因此同时考虑准确率和召回率：

其中rel(k)表示第k个文档是否相关，若相关则为1，否则为0，P(k)表示前k个文档的准确率。

MAP：通常会用多个查询语句来衡量检索系统的性能，所以应该对多个查询语句的AveP求均值(the mean of average precision scores)，即公式：

这里把MAP用图示解释的非常清楚，还有例子

三. F1-Score

F-Score:

常用的两种设置是F2和F0.5，前者中recall重要程度是precision的两倍，后者则相反，precision重要程度是recall的两倍。

四. ROC和AUC (适合于不定最后的判别边界)

横轴是False Positive Rate = FP/(真实负例个数); FP是分成正例的里面，label是负例的个数；

纵轴是True Positive Rate = TP/(真实正例个数)；TP是分成正例的里面，label是正例的个数；

打好分之后，按照升序排列；

bar，从高到低，进行扫描；

如果最最理想情况下，前半部分全是负例，后半部分全是正例；则从后往前扫描时，一开始FPR是0，TPR从0增长到1；然后，FPR从0增长到1，TPR一直保持1；围成的面积等于1，也就是AUC等于1；

五. ERR

一个文档是否被用户点击和排在它前面的文档有很大的关系，比如排在前面的文档都是不相关文档，那么它被点击的概率就高，如果排它前面的文档都是非常相关的文档，那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档，一旦文档满足了用户的需求，则停止查看后续的文档。用 $R_{i}$ 表示用户只看在位置ii上的文档后就不在需要查看其它文档的概率，显然文档的相关度越高， $R_{i}$ 越大。

(1- $R_{i}$ )是不点击i的概率；前r-1个都不点击的概率，乘以点击第r个的概率，就是停在第r个的概率；

$g_{i}$ 是相关性等级, 等级越高，被点击的概率就越大；

ERR表示用户的需求被满足时停止的位置的倒数的期望。越大越好。

MRR和MAP只能对二级的相关性（排序等级：相关和不相关）进行评分，而NDCG和ERR则可以对多级的相关性（排序等级>2）进行评分。NDCG和ERR的另一个优点是更关注排名靠前的文档，在计算分数时会给予排名靠前的文档更高的权重。但是这两种评分方式的缺点是函数不连续，不能进行求导，所以也就不能简单地将这两种评分方式加入到模型的损失函数中去。

MRR：

用于导航型搜索测量查准性。翻译成中文就是第一个正确结果的平均排名倒数，根据用户点击得到。比如，用户搜索词A,希望找到相关结果B,B出现位置越靠前，用户会对结果排序越满意。如果B出现在第一位，RR=1/1=1,出现在第二位，RR=1/2=0.5.如果用户满意的结果，可以认为结果出现在无穷大的位置，那么其RR=0.MRR就是综合考虑多个主题的RR值求平均即为MRR。MRR是0到1之间的一个数，越接近1表明搜索排序越好。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

smartcat2010 CSDN认证博客专家 CSDN认证企业博客

码龄13年

206: 原创

1万+: 周排名

6513: 总排名

38万+: 访问

: 等级

5052: 积分

234: 粉丝

298: 获赞

39: 评论

696: 收藏

私信

关注

热门文章

分类专栏

最新评论

NCCL的Double Binary Tree实现原理
yangyangv5: 博主请教一些问题，ring allreduce在设备数量足够大的时候可以近似看所 2S/B+SC,这部分性能与设备无关了，和tree相比tree在性能上的优势是什么呢？RingAllReduce，每次每个节点等量的发送和接收，所以接收到的加和完后，没有带宽再同时发送了这段话不是很理解
Tensorflow论文解读
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Mesos+Docker+Tensorflow集群解决方案
CSDN-Ada助手: 有人说无监督学习才是AI的未来，否则会有多少人工就有多少智能，元芳你怎么看呢？
B树和Clustered/Non-Clustered index
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
DeepSpeed MoE
柒免: 您好，请问您有成功运行实际的代码吗？多机多卡推理moe模型这种？想请教一下

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。