推荐系统评价：什么是好的推荐系统？

最新推荐文章于 2024-01-04 00:04:04 发布

EricLi404

最新推荐文章于 2024-01-04 00:04:04 发布

阅读量518

点赞数 1

分类专栏：推荐系统文章标签：推荐系统机器学习

本文链接：https://blog.csdn.net/leiflyy/article/details/105275322

版权

推荐系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

推荐系统评价：什么是好的推荐系统？

推荐系统评价：什么是好的推荐系统？

推荐系统评价：什么是好的推荐系统？

1.1 什么是推荐系统

推荐系统的定义：

我们已经进入了一个信息过载的时代：

信息消费者从大量信息中找到自己感兴趣的信息很困难
信息生产者让自己生产的信息从大量信息中脱颖而出也很困难

推荐系统就是解决这一矛盾的重要工具。

信息过载的解决：

推荐系统
- 在用户没有明确目的时帮助用户发现他们感兴趣的新内容
- 从item角度出发，推荐系统可以更好的发掘item的长尾
搜索引擎
- 满足用户有明确目的时的主动查找需求

搜索引擎和推荐系统有着互补的关系。

推荐系统的基本任务：

联系用户和item，解决信息过载的问题。

推荐算法的本质：

通过一定的方式将用户和item联系起来

好友关系
用户历史兴趣记录
用户注册信息
…

1.2 个性化推荐系统的应用

主要的应用场景有：

电商网站
流媒体电影/视频网站
流媒体音乐
社交网络
个性化阅读
基于位置的服务
个性化邮件
个性化广告
…

音乐推荐的特点

item空间大
item种类丰富
item重用率高
消费每首歌的经济代价小
消费每首歌的时间代价小
一个用户可以对应很多歌item
存在很多播放列表资源
高度社会化
上下文相关
推荐次序对效果有影响
不需要用户全神贯注听

两种推荐方式对比 :

item-based 推荐
- 给用户推荐和用户喜欢的item相似的item
基于好友的推荐
- 给用户推荐他们的好友喜欢的item

1.3 推荐系统评测

推荐系统的参与者

用户
item提供方
item展示方

一个好的推荐系统应该是对推荐系统的三个参与者都有益的。
从用户角度，好的推荐系统不仅能够准确预测用户的行为，而且能够拓展用户的视野，帮助用户发现那些用户感兴趣却不太容易发现的东西。

1.3.1 推荐系统实验方法

通过离线实验证明新方法在离线指标上优于在线算法
通过用户调查确定新方法用户满意度不低于在线算法
通过在线ABtest确定新方法在线上指标优于在线算法

1.3.2 评价指标

1.3.2.1 用户满意度

点击率
停留时长
转化率

1.3.2.2 预测精准度

评分预测

对于测试集中的一个用户u和物品i，令 $r_{ui}$ 是用户u对物品i的实际评分，而 $\hat{r}_{ui}$ 是推荐算法给出的预测评分，则有：

RMSE 均方根误差: $ RMSE = \sqrt{{\frac {\sum_{u,i\in T} (r_{ui} - \hat{r}_{ui})^2} {|T|} }} $
- RMSE加大了对预测不准的用户物品评分的惩罚（平方项的惩罚），因而对系统的评测更加苛刻。
MAE 平均绝对误差: $ MAE = {\frac {\sum_{u,i\in T} |r_{ui} - \hat{r}_{ui}| } {|T|} } $
- 如果评分系统是基于整数建立的，那么对预测结果取整会降低MAE的误差。

RMSE和MAE的实现：
令records[i] = [u, i, rui, pui] , 其中，rui是用户u对物品i的实际评分，pui是算法预测出来的用户u对物品i的评分，则python实现如下：


def RMSE(records):
    return math.sqrt(sum([(rui - pui) ** 2 for _, _, rui, pui in records]) / (len(records)))
    
def MAE(records):
    return sum([abs(rui - pui) for _, _, rui, pui in records]) / len(records)

TopN推荐

准确率 $\frac {\sum_{u\in U} |R(u) \cap T(u)|} {\sum_{u\in U} |R(u)|}$
召回率 $\frac {\sum_{u\in U} |R(u) \cap T(u)|} {\sum_{u\in U} |T(u)|}$

为了全面评测TopN推荐的准确率和召回率，一般会选取不同的推荐列表长度N，计算出一组准确率/召回率，然后画出准确率高/召回率曲线（p/r curve）。

推荐系统的目的是找到用户最有可能感兴趣的item，而不是预测用户给item什么样的评分。因此，TopN推荐更符合实际应用需求。

1.3.2.3 覆盖率

覆盖率（coverage）描述一个推荐系统对item长尾的发掘能力。

从定义角度来说覆盖率是一个item提供商会关心的指标。

假设系统的用户集合为U，物品集合为I，推荐系统给每个用户推荐一个长度为N的物品列表R(u)，那么覆盖率的定义为：$ Coverage = \frac {|U_{u\in U} R(u)|} {|I|}$

按照上述定义，当覆盖率接近100%时，系统可以有无数不同的流行度分布，为了更细致的描述推荐系统发掘长尾的能力，需要将流行度分布加入覆盖度指标。

在信息论和经济学中有两个著名的指标: 信息熵和基尼系数 。

信息熵
令p(i)为物品i的流行度除以所有物品的流行度之和，则有信息熵的定义如下：
$\sum_{i=1}^n {p(i)log\ p(i)}$

基尼系数（Gini Index）
令 $p(i_j)$ 为物品i按流行度升序排列后的低j个物品的流行度，则有基尼系数的定义：
$\frac 1 {n-1} \sum_{j=1}^n (2j-n-1)p(i_j)$

在这里插入图片描述

推荐系统中的马太效应

社会学领域有一个著名的马太效应，即所谓强者更强、弱者更弱的效应。

一般来说，热门排行榜系统具有马太效应，搜索引擎的PageRank也具有马太效应。

如果一个推荐系统会增大热门物品和非热门物品之间的流行度差距，则这个系统具有马太效应。而推荐系统的初衷是消除马太效应，使得各种物品都能展示给对他们感兴趣的某一类人群。但是，很多研究表明，现在主流的推荐算法（比如协同过滤）是具有马太效应的。

评测一个推荐系统是否具有马太效应最简单的方法是使用基尼系数：

记G1为从初始用户行为中统计出的物品流行度基尼系数
记G2为从推荐列表中计算出的物品流行度的基尼系数

若 $G 2 > G 1$ 则说明推荐算法具有马太效应。

1.3.2.4 多样性

用户的兴趣是广泛的，为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域。

多样性描述了推荐列表中物品两两之间的不相似性。因此，多样性和相似性有对应关系。假设 $\in [0,1]$ 定义了物品i和j之间的相似度，那么用户u的推荐列表R(u)的多样性定义如下：
$\frac {\sum_{i, j\in R(u),i\not =j}s(i, j)} {\frac 1 2 |R(u)| (|R(u)|-1)}$