推荐系统系列——推荐算法评价指标

最新推荐文章于 2025-03-21 22:02:51 发布

李霁明

最新推荐文章于 2025-03-21 22:02:51 发布

阅读量7k

点赞数 7

分类专栏： AI 推荐系统文章标签：推荐算法评价指标菜根谭

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34767784/article/details/118424025

版权

AI 同时被 2 个专栏收录

13 篇文章

订阅专栏

5 篇文章

订阅专栏

同步读书之《菜根谭》

9、静坐观心，真妄毕现

夜深人静独坐观心，始觉妄穷而真独露，每于此中得大机趣：既觉真现而妄难逃，又于此中得大惭忸（niǔ）。

妄：非分，越轨。妄穷：私心杂念都没有了。
惭忸（niǔ）：惭愧。

10、得意早回头，拂心莫停手

恩里由来生害，故快意时，须早回首；
败后或反成功。故拂心处，莫便放手。

推荐算法评价指标

要评估一个推荐模型的好坏，需要通过不同指标从多个角度评价推荐系统，按照推荐任务的不同，推荐质量度量方法可以分为三大类：
（1）评分预测指标：许多推荐系统根据物品的评分进行推荐，因而可以根据评分预测指标进行评价。
（2）集合推荐指标：许多推荐系统最后得到的是推荐物品的集合（例如Top-N推荐任务），因而可以根据集合推荐指标进行评价。（3）排名推荐指标：按排名列表对推荐效果加权进行评估，既可以适用于评分预测任务也可以用于集合推荐任务[11]。

1 评分预测指标

常见的指标有平均绝对误差（MAE）、均方根误差（RMSE）、标准化平均误差（NMAE）以及覆盖率（Coverage）。

1.1 符号定义

在这里插入图片描述

1.2 平均绝对误差

平均绝对误差指的是所有测试集中推荐预测的得分与实际用户的打分之间的差值之和的均值。对应公式如下所示：
在这里插入图片描述

对应单个用户u的标准平均绝对误差为，对应公式如下所示：
在这里插入图片描述

1.3 均方根误差

均方根误差指的是所有测试集中的物品推荐预测的得分与实际用户的打分之间的差值平方和开根号的均值。对应公式如下所示：
在这里插入图片描述

1.4 覆盖率

在这里插入图片描述
此处更正Cu：Cu里面应改为用户u的近邻集合不为空且未被用户u评分的物品集合。

2 集合推荐指标

常见的指标有准确率、精确率、召回率、F1值等。

2.1 混淆矩阵

提到上面几个经典的指标我们必须要先了解一下混淆矩阵的概念。混淆矩阵是评价系统精度的一种n行n列的矩阵，它的每一行代表预测值，每一列代表真实值。
在这里插入图片描述

如表4.1所示，混淆矩阵主体为两行两列，两行分别代表样本的真实值的Positive或者Negative状态；而两列分别代表预测值的Positive或者Negative状态。而这样就组合出了关于真实值和预测值的四种状态：

真阳性（True Positive, TP）：用户给物品的打分是正例，并且推荐系统预测的结果也是正例
真阴性（True Negative, TN）：用户给物品的打分是负例，并且推荐系统预测的结果也是负例
假阳性（False Positive, FP）：用户给物品的打分是负例，但是推荐系统预测其为正例
假阴性（False Negative, FN）：用户给物品的打分是正例，但是推荐系统预测其为负例

2.2 准确率

准确率指的是在所有物品中，推荐系统预测正确的物品数占总物品数的比例，对应的公式如下所示：
在这里插入图片描述

2.3 精确率

精确率指的是在所有预测为正例的物品中，预测正确为正例所占的比例，对应的公式如下所示：
在这里插入图片描述

2.4 召回率

召回率指的是在所有实际为正例的物品中，预测正确为正例所占的比例，对应的公式如下所示：
在这里插入图片描述

2.5 F1值

F1-值就是精确率和召回率的调和平均值，F1-值认为精确率和召回率一样重要，其取值范围从0到1的，1代表模型的输出最好，0代表模型的输出结果最差，对应的公式如下所示：
在这里插入图片描述

2.6 ROC与AOC

ROC曲线是以FPR为x轴，TPR为y轴得到的曲线，而AUC是指ROC曲线下坐标轴围成区域的面积。AUC的实际意义是在该区域把正例的物品预测为1的概率大于把负例物品预测为1的概率。对应公式如下所示：
在这里插入图片描述

2.7 命中率

命中率是目前TOP-K推荐研究中非常流行的评价指标，表示测试集中的物品出现在TOP-K推荐列表中的用户数与用户总数的比值。对应公式表示如下：
在这里插入图片描述

3 排名推荐指标

由于许多用户只对推荐列表中排名靠前的物品感兴趣，所以它们的重要性也远大于排名靠后的物品，所以出现了排名推荐指标来按排名列表对推荐效果进行加权评估。常见的指标有半衰期效用指标HLU、折现累积收益DCG、排序偏差准确率RBP等。

3.1 半衰期效用指标

半衰期效用指标（Half Life Utility index，HLU）认为用户与浏览某商品的概率与其在推荐列表中的位置相关，而且是呈指数递减相关，它能够度量用户打分与系统默认评分之间的差距。对应的公式如下所示：
在这里插入图片描述

3.2 折现累积收益DCG

折扣累计收益(discounted cumulative gain， DCG)认为推荐列表中排名越靠前的物品应该越被用户所喜欢，其公式如下所示：
在这里插入图片描述

b是自由参数；L为推荐列表长度。

3.3 排序偏差准确率RBP

排序偏差准确率(rank-biased precision，RBP)基于的假设是用户总是先浏览推荐列表首位的商品，然后依次以概率p浏览下一个，以1-p的概率不再浏览，RBP公式如下所示：
在这里插入图片描述

4 其它评估指标

除了上述评价指标之外，由于人们对于推荐系统的用户体验要求越来越高，所以诞生出诸如多样性、新颖性、稳定性等指标。

4.1 多样性

在这里插入图片描述

4.2 新颖性

推荐系统的新颖性指的是能够向用户推荐非热门非流行商品的能力。一般来说，系统所推荐商品与用户已知物品相似度越小，新颖度越高，所以其公式表示如下：
在这里插入图片描述

4.3 稳定性

稳定性是指推荐系统的预测结果在短期内不会发生明显变化，只有这样才会被用户所信任。假设已知用户评分集合R1，对应的预测评分集合为P1，经过一段时间后，用户对之前未评分的物品进行了评分，此时我们再对P1中的物品进行预测评分，得到预测评分集合P2，则系统的稳定性可以表示如下：
在这里插入图片描述

参考文献

[11] Terryn W C , World. Discounted cumulative gain[J]. Fer Publishing, 2011.

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李霁明 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。