推荐系统评测
1.推荐系统实验方法
在进行推荐之前,先从数据获得方法入手。数据的获得方法主要有
- 离线实验
这个应该是最常见的那种,即数据使用的是离线的数据,提取数据->训练集和测试集——> 建立模型 ——> 测试集上进行实验——>效果评价 - 用户调查
可以获得一些推荐效果的主观指标 - 在线实验
即切分流量,进行AB test
2.指标评测
不同的实验方法可能会对应着不同的衡量指标,简单的介绍如下:
- 用户满意度
这个指标相对来说是一个主观的指标,可以通过用户调查,或者是对用户客观行为进行分析(比如:点击率、停留时间等) - 预测准确率
- 评分预测
评分预测类主要是让用户对商品进行打分,比如1-5级的打分。其主要的计算指标是均方根误差RMSE或者平均绝对误差MAE - TopN推荐
topN推荐,即给用户推荐一个其可能感兴趣的item列表,也是我们主要要讨论的。其主要的评价指标即PR(precision recall)
- 评分预测
- 覆盖率
覆盖率主要是刻画了推荐系统对长尾物品的发掘能力。我们希望推荐系统不止推荐出一些热门的,这样只能覆盖很少的一部分items。
- 最简单的计算方法:推荐系统推荐出来的物品占所有物品的比重。但是没有考虑到分布情况
- 统计推荐列表中不同物品的出现次数的分布
信息熵 H=−∑pilogpi
基尼系数 G=1n−1∑(2j−n−1)p(ij)
- 多样性
即希望推荐给用户的东西类型是多样的,比如对于电影,用户可能喜欢看爱情类、科幻类,那么推荐系统在进行推荐的时候,只推荐爱情类的效果显然不如既有爱情类又有科幻类的效果好。 - 新颖性
- 惊喜度
- 信任度
- 。。。