推荐系统评价方法

最新推荐文章于 2023-06-05 15:03:28 发布

Erli11

最新推荐文章于 2023-06-05 15:03:28 发布

阅读量4.9k

点赞数

分类专栏：推荐引擎文章标签：推荐系统评价指标

本文链接：https://blog.csdn.net/Erli11/article/details/37930943

版权

推荐引擎专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、现有评价指标调研
1、推荐系统实验方法
在介绍评价指标之前，先讨论下计算和获取这些指标的主要实验方法。
（1）离线实验
离线实验一般有如下步骤：
S1 通过日志系统获取用户行为数据，并按照一定格式生成数据集；
S2 将数据集分成训练集和测试集；
S3 在训练集上训练用户兴趣模型，在测试机上进行预测；
S4 通过预先定义的离线评测指标，评价测试集上的预测结果；

优点：不需要用户实际参与，不需要对系统进行修改，速度快，可测试大量算法。
缺点：结果并没有真实展示给用户，有一些商业上的指标（转换率等）也无法计算。
（2）在线实验
通过一定规则将用户分成几组，然后通过不同组用户的不同评价指标比较不同算法，如点击率等。
核心思想：
1）多个方案并行；2）只有一个变量不同；3）以某种规则优胜劣汰。
缺点是时间比较长，需要统计日志数据，通过评测系统生成不同组的评测报告。
一般采用80/20评价，及20%的用户用来试验评测，80%的是常规方案
（3）用户调查
了解真实用户对系统的满意度等。

2、评价指标
目前主要有以下指标，其中最重要的是预测准确度。
（1）用户满意度
只能通过用户调查或者在线实验获得。在一般情况下，可以通过点击率、用户停留时间、转换率等指标来衡量。
（2）预测准确度
一个推荐系统预测用户行为的能力，是最重要的评测指标，可用准确率和召回率度量。
（3）覆盖率
描述推荐系统对物品长尾的发掘能力，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。
假设系统的用户集合为U，为每个用户推荐的物品列表R(u)，则覆盖率计算公式如下：

为了更细致的描述推荐系统挖掘长尾的能力，需要统计推荐列表中不同物品出现次数的分布。

（4）多样性
为了满足用户广泛的兴趣，推荐列表需要覆盖用户不同的兴趣领域，即推荐结果要具有多样性。
我们现在是按照topic、实体词来推的。可能不太涉及。很多推荐系统是用物品推的，需要衡量不同物品间的不相似度。
（5）新颖性
是指给用户推荐那些以前没听说过的物品。最简单的办法是用物品的评价流行度来衡量。
（6）惊喜度
和信任度一样，没有公认的评价指标公式。定性衡量是：为用户推荐这样的物品：和用户历史上喜欢的物品不相似，
但用户决定满意的物品。列出来是因为这也是我们以后努力的方向之一。
（7）信任度
按照我的理解，就是用户知道自己的某种需求，能够通过使用推荐系统得到满足。
参考文献：《推荐系统实践》《推荐系统指标综述》

Erli11

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
推荐系统评价方法

一、现有评价指标调研1、推荐系统实验方法在介绍评价指标之前，先讨论下计算和获取这些指标的主要实验方法。（1）离线实验离线实验一般有如下步骤：S1 通过日志系统获取用户行为数据，并按照一定格式生成数据集；S2 将数据集分成训练集和测试集；S3 在训练集上训练用户兴趣模型，在测试机上进行预测；S4 通过预先定义的离线评测指标，评价测试集上的预测结果；
复制链接

扫一扫

专栏目录