推荐系统测评指标

一个完整的推荐系统一般含3个参与方:用户、物品提供者和提供推荐系统的网站。一个好的推荐系统是能令三方共赢的系统。好的推荐系统不仅能准确预测用户的行为,还能扩展用户的视野,帮助用户发现那些他们可能会感兴趣,但却不容易发现的东西。自己的理解:对用户来说,好推荐系统有较好的新颖性和惊喜度。对提供者来说,要有较高的用户满意度和覆盖率


一、实验方法

1.离线实验

需要有一个日志数据集,不需一个实际的系统来供它实验。

优点:不需真实用户参与,直接快速、方便,可测试大量算法。

缺点:无法获得很多商业上关注的指标,如点击率、转化率等。离线实验的指标和商业指标存在差距,如预测准确率和用户满意度间存在很大差别。

2.用户调查

在上线测试前需做一次用户调查。

优点:得到与用户主观感受有关的指标,相对在线实验风险很低,出现错误后很容易弥补

缺点:调查成本很高,需用户花大量时间完成一个任务并回答相关问题。需花钱雇佣测试用户,大多数情况下很难进行大规模的用户调查,得出的结果大多没有统计意义。设计双盲实验非常困难,且结果在真实环境下无法重现。

3.在线实验

在离线实验和用户调查后将推荐系统上线做AB测试,将新系统和旧算法进行比较。将用户随机分成几组,对不同组用户采用不同算法,比较不同算法性能。

优点:可公平获得不同算法实际在线时的性能指标,包括商业上关注的指标

缺点:周期较长,需进行长期实验才能得到可靠的结果。故只测试在离线实验和用户调查中表现较好的算法

一般来说,一个新推荐算法上线要完成上述的3个实验。首先,须通过离线实验证明它在很多离线指标上优于现有的算法;然后,通过用户调查确定它的用户满意度不低于现有的算法;最后,通过在线AB测试确定它在我们关心的指标上优于现有的算法


二、测评指标

1.用户满意度:只能通过用户调查或在线实验获得

对于用户调查方式,用调查问卷方式;对于在线实验方式,主要通过一些对用户行为的统计得到。

对于用户行为,可分为显性和隐性之分。若用户购买了推荐的商品,则说明在一定程度上满意,可用购买率度量。还可用用户反馈界面收集,通过统计两种按钮的单击情况度量。更一般的情况下,用点击率、用户停留时间和转化率等指标度量。

2.预测准确度:离线实验测评

表示一个推荐算法预测用户行为的能力。

2.1  评分预测(即打分)

一般用RMSE(均方根误差)和MAE(平均绝对误差)计算。RMSE加大了对预测不准的用户物品评分的惩罚,对系统的测评更加苛刻。

2.2  Top N推荐(即个性化推荐)

一般用准确率(precision)和召回率(recall)计算。准确率和召回率的定义如下:其中R(u)表示推荐的列表,T(u)表示真实的行为列表


为了全面测评TopN推荐,一般会选取不同的推荐列表长度计算出一组准确率和召回率,画出对应的曲线。

3.覆盖率

描述一个算法对长尾物品的挖掘能力。定义为推荐算法能推荐出的物品占总物品集合的比例,是内容提供商会关心的指标,热门排行榜的推荐覆盖率是很低的。

为了更细致地描述算法挖掘长尾的能力,需统计推荐列表中不同物品出现次数的分布。若所有的物品均出现在推荐列表中,且出现的次数差不多,则推荐系统发掘长尾的能力较好(这一点和最大熵模型很像!)。可用信息熵和基尼系数来表述

       很多研究表明,现在的主流推荐算法(如协同过滤算法)具有马太效应,即强者更强。测评一个推荐算法是否有马太效应的简单办法是使用基尼系数。具体方法是:分别计算推荐列表和初始用户行为的物品流行度的基尼系数,若推荐列表的基尼系数大,则推荐算法具有马太效应。

4.多样性

满足用户广泛的兴趣需求。描述了推荐列表中物品两两之间的不相似性。多样性和相似性对应

5.新颖性

在网站中实现的最简单的做法是,把用户之前在网站中对其有过行为的物品从推荐列表中过滤掉,但金过滤掉本网站中用户有过行为的物品不能完全实现新颖性。

测评的最简单方法是利用推荐结果的平均流行度,越不热门的物品越可能让用户觉得新颖。要准确统计新颖性需作用户调查。

6.惊喜度(热点)

和新颖性的区别:若推荐结果和用户的历史兴趣不相似,但却让用户觉得满意,则表示惊喜度很高;而推荐结果的新颖性仅取决于用户是否听说过这个推荐结果。

7.信任度

只能通过问卷调查来度量。

提高信任度的方法主要有两种:首先需增加推荐系统的透明度,主要是提供推荐解释。其次是考虑用户的社交网络信息,即好友推荐。

8.实时性(常在物品和新闻类网站中要求)

实时更新推荐列表来满足用户新的行为变化。很多推荐系统都会在离线状态每天计算一次用户推荐列表,然后于在线期间将推荐列表展示给用户,这样很不及时,效果不好。可通过推荐列表的变化速率测评。需能将新加入的物品推荐给用户,考验推荐系统处理物品的冷启动能力。可用用户推荐列表中有多大比例的物品是当天新加的来测评。

9.健壮性

衡量算法抗击作弊的能力。最著名的是行为注入攻击。主要用模拟攻击测评。


??如何优化离线指标来提高在线指标??

对于可以离线优化的指标,书中作者的看法是应在给定覆盖率、多样性、新颖性等限制条件下尽量优化预测准确度。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值