在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment) 用户调查(user study)和在线实验 (online experiment) .
1. 离线实验
(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。
(2)按照一定的规则将数据集划分为训练集和测试集。
(3) 在训练集上训练用户兴趣模型, 在测试集上进行测试。
(4) 通过事先定义的离线评测指标评测算法效果。
2. 用户调查
用户调查需要一批真实的用户, 让他们在需要的推荐系统上完成一些任务。在他们完成任务的,纪录他们的行为,并让他们回答一些问题。 最后,我们通过他们的行为和答案了解测试系统的性能。
3. 在线实验
完成以上两个步骤之后, 可以在推荐系统上做一个 AB test,将他和旧的系统进行对比。
附上AB test 网站(http://www.abtests.com)
AB test 可以公平的获取不同算法在实际在线时候的性能指标,包括商业上关注的指标。
一个简答的AB test 系统,用户进入网站之后,会给用户打上在测试种属于哪个分组的标签,然后用户浏览网页的时候,行为会通过日志系统发送到后台的日志数据库。 在后台,实验人员首先配置流量分配系统。 其次,实验人员需要统计日志数据库种的数据,生成测试数据,比较结果。
评测指标
1. 用户满意度
2. 预测准确度
1) 评分预测
2) TopN推荐
3. 覆盖率
4. 多样性
5. 新颖性
6. 惊喜度
7. 信任度
8. 实事性
9. 健壮性