推荐系统测评指标

最新推荐文章于 2024-05-30 00:15:39 发布

喵呜1991

最新推荐文章于 2024-05-30 00:15:39 发布

阅读量1w

点赞数 1

分类专栏：推荐系统文章标签：测评指标

本文链接：https://blog.csdn.net/u014570574/article/details/51437009

版权

推荐系统专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一个完整的推荐系统一般含3个参与方：用户、物品提供者和提供推荐系统的网站。一个好的推荐系统是能令三方共赢的系统。好的推荐系统不仅能准确预测用户的行为，还能扩展用户的视野，帮助用户发现那些他们可能会感兴趣，但却不容易发现的东西。自己的理解：对用户来说，好推荐系统有较好的新颖性和惊喜度。对提供者来说，要有较高的用户满意度和覆盖率。

一、实验方法

1.离线实验

需要有一个日志数据集，不需一个实际的系统来供它实验。

优点：不需真实用户参与，直接快速、方便，可测试大量算法。

缺点：无法获得很多商业上关注的指标，如点击率、转化率等。离线实验的指标和商业指标存在差距，如预测准确率和用户满意度间存在很大差别。

2.用户调查

在上线测试前需做一次用户调查。

优点：得到与用户主观感受有关的指标，相对在线实验风险很低，出现错误后很容易弥补

缺点：调查成本很高，需用户花大量时间完成一个任务并回答相关问题。需花钱雇佣测试用户，大多数情况下很难进行大规模的用户调查，得出的结果大多没有统计意义。设计双盲实验非常困难，且结果在真实环境下无法重现。

3.在线实验

在离线实验和用户调查后将推荐系统上线做AB测试，将新系统和旧算法进行比较。将用户随机分成几组，对不同组用户采用不同算法，比较不同算法性能。

优点：可公平获得不同算法实际在线时的性能指标，包括商业上关注的指标

缺点：周期较长，需进行长期实验才能得到可靠的结果。故只测试在离线实验和用户调查中表现较好的算法。

一般来说，一个新推荐算法上线要完成上述的3个实验。首先，须通过离线实验证明它在很多离线指标上优于现有的算法；然后，通过用户调查确定它的用户满意度不低于现有的算法；最后，通过在线AB测试确定它在我们关心的指标上优于现有的算法

二、测评指标

1.用户满意度：只能通过用户调查或在线实验获得。

对于用户调查方式，用调查问卷方式；对于在线实验方式，主要通过一些对用户行为的统计得到。

对于用户行为，可分为显性和隐性之分。若用户购买了推荐的商品，则说明在一定程度上满意，可用购买率度量。还可用用户反馈界面收集，通过统计两种按钮的单击情况度量。更一般的情况下，用点击率、用户停留时间和转化率等指标度量。

2.预测准确度：离线实验测评

表示一个推荐算法预测用户行为的能力。

2.1 评分预测（即打分）

一般用RMSE（均方根误差）和MAE（平均绝对误差）计算。RMSE加大了对预测不准的用户物品评分的惩罚，对系统的测评更加苛刻。

2.2 Top N推荐（即个性化推荐）

一般用准确率(precision)和召回率(recall)计算。准确率和召回率的定义如下：其中R(u)表示推荐的列表，T(u)表示真实的行为列表

为了全面测评TopN推荐，一般会选取不同的推荐列表长度计算出一组准确率和召回率，画出对应的曲线。

3.覆盖率

描述一个算法对长尾物品的挖掘能力。定义为推荐算法能推荐出的物品占总物品集合的比例，是内容提供商会关心的指标，热门排行榜的推荐覆盖率是很低的。

为了更细致地描述算法挖掘长尾的能力，需统计推荐列表中不同物品出现次数的分布。若所有的物品均出现在推荐列表中，且出现的次数差不多，则推荐系统发掘长尾的能力较好（这一点和最大熵模型很像！）。可用信息熵和基尼系数来表述。

很多研究表明，现在的主流推荐算法（如协同过滤算法）具有马太效应，即强者更强。测评一个推荐算法是否有马太效应的简单办法是使用基尼系数。具体方法是：分别计算推荐列表和初始用户行为的物品流行度的基尼系数，若推荐列表的基尼系数大，则推荐算法具有马太效应。

4.多样性

满足用户广泛的兴趣需求。描述了推荐列表中物品两两之间的不相似性。多样性和相似性对应。

5.新颖性

在网站中实现的最简单的做法是，把用户之前在网站中对其有过行为的物品从推荐列表中过滤掉，但金过滤掉本网站中用户有过行为的物品不能完全实现新颖性。

测评的最简单方法是利用推荐结果的平均流行度，越不热门的物品越可能让用户觉得新颖。要准确统计新颖性需作用户调查。

6.惊喜度（热点）

和新颖性的区别：若推荐结果和用户的历史兴趣不相似，但却让用户觉得满意，则表示惊喜度很高；而推荐结果的新颖性仅取决于用户是否听说过这个推荐结果。

7.信任度

只能通过问卷调查来度量。

提高信任度的方法主要有两种：首先需增加推荐系统的透明度，主要是提供推荐解释。其次是考虑用户的社交网络信息，即好友推荐。

8.实时性（常在物品和新闻类网站中要求）

实时更新推荐列表来满足用户新的行为变化。很多推荐系统都会在离线状态每天计算一次用户推荐列表，然后于在线期间将推荐列表展示给用户，这样很不及时，效果不好。可通过推荐列表的变化速率测评。需能将新加入的物品推荐给用户，考验推荐系统处理物品的冷启动能力。可用用户推荐列表中有多大比例的物品是当天新加的来测评。

9.健壮性

衡量算法抗击作弊的能力。最著名的是行为注入攻击。主要用模拟攻击测评。

？？如何优化离线指标来提高在线指标？？

对于可以离线优化的指标，书中作者的看法是应在给定覆盖率、多样性、新颖性等限制条件下尽量优化预测准确度。

喵呜1991

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
推荐系统测评指标

一个完整的推荐系统一般含3个参与方：用户、物品提供者和提供推荐系统的网站。一个好的推荐系统是能令三方共赢的系统。好的推荐系统不仅能准确预测用户的行为，还能扩展用户的视野，帮助用户发现那些他们可能会感兴趣，但却不容易发现的东西。自己的理解：对用户来说，好推荐系统有较好的新颖性和惊喜度。对提供者来说，要有较高的用户满意度和覆盖率。一、实验方法1.离线实验需要有一个日志数据集，不需一
复制链接

扫一扫

专栏目录