推荐系统评测指标

最新推荐文章于 2024-03-20 21:04:45 发布

XinzeCCC

最新推荐文章于 2024-03-20 21:04:45 发布

阅读量7.7k

点赞数 2

分类专栏：推荐系统文章标签：推荐系统 Python

推荐系统专栏收录该内容

1 篇文章 2 订阅

订阅专栏

本文为项亮《推荐系统实践》一书的学习笔记

1. 用户满意度（在线）

用户满意度没有办法离线计算，只能通过用户调查或者在线实验获得。

用户调查获得用户满意度主要是通过调查问卷的形式。

2. 预测准确度（离线）

这个指标是最重要的推荐系统离线评测指标。

2.1 评分预测

评分预测的预测准确度一般通过均方根误差（RMSE）和平均绝对误差（MAE）计算。

对于测试集中的一个用户u和物品i，令 $r_{ui}$ 是用户u对物品i的实际评分，而 $\hat{r}_{ui}$ 是推荐算法给出的预测评分

RMSE的定义为：

$RMSE=\sqrt{\frac{\sum _{u,i\epsilon T}(r_{ui}-\widehat{r}_{ui})^{2}}{\left | T \right |}}$

MAE采用绝对值计算预测误差，它的定义为：

$MAE=\frac{\sum _{u,i\epsilon T}\left | r_{ui}-\widehat{r}_{ui} \right |}{\left | T \right |}$

假设我们用一个列表records存放用户评分数据，令records[i] = [u, i, rui, pui],其中rui是用户u对物品i的实际评分，pui是算法预测出来的用户u对物品i的评分，那么下马的代码分别实现了RMSE和MAE的计算过程。

def RMSE(records):
    return math.sqrt(sum([(rui-pui)*(rui-pui) for u,i,rui,pui in records])/float(len(records)))

def MAE(records):
    return sum([abs(rui-pui) for u,i,rui,pui in records])/float(len(records))

2.2 TopN推荐

网站在提供推荐服务时，一般是给童虎一个个性化的推荐列表，这种推荐叫TopN推荐。TopN推荐的预测准确率一般通过准确率（precision）和召回率（recall）度量。

令R（u）是根据用户在训练集上的行为给用户做出的推荐列表，而T（u）是用户在测试集上的行为列表。

3. 覆盖率

覆盖率（Coverage）描述一个推荐系统对物品长尾的发掘能力。最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。

假设系统的用户集合为U，总物品集合为I ，推荐系统给每个用户推荐一个长度为N的物品列表R(u)：

$Coverage=\frac{\left | U_{u\epsilon U}R(u) \right |}{\left | I \right |}$

可以通过研究物品在推荐列表中出现的次数的分布描述推荐系统挖掘长尾的能力。如果这个分布比较平，那么说明推荐系统的覆盖率比较高，而如果这个分布比较陡峭，说明这个推荐系统的覆盖率比较低。在信息论和经济学中有两个著名的指标可以用来定义覆盖率。

第一个是信息熵：

$H=-\sum_{i=1}^{n}p(i)logp(i)$

这里p(i)是物品i的流行度除以所有物品流行度之和。

第二个指标是基尼系数（Gini Index）:

$Gini = \frac{1}{n-1}\sum_{j=1}^{n}(2j-n-1)p(i_{j})$

这里， $i_{j}$ 是按照物品流行度p从小到大排序的物品列表中的第j个物品。

评测推荐系统是否具有马太效应的简单办法就是使用基尼系数。

4. 多样性

用户的兴趣是广泛的，一个经常看动漫的用户也可以喜欢其他类型的视频。为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。

多样性描述了推荐列表中物品两两之间的不相似性。假设 $s(i,j)\epsilon [0,1]$ 定义了物品i和物品j之间的相似度，那么用户u的推荐列表R(u)的多样性定义为：
$Diversity(R(u))=1-\frac{\sum_{i,j\epsilon R(u),i\neq j}s(i,j))}{\frac{1}{2}\left | R(u) \right |(\left | R(u) \right |-1))}$