1.3.2 评测指标
1.用户满意度
-
无法离线计算,只能通过用户调查或者在线实验获得
-
通过调查问卷的方式进行
从不同的侧面询问用户对结果的不同感受;
通过用户行为统计满意度,如用户在电商网站购买了推荐的商品(购买率度量满意度)、点击率、停留时间、转化率等指标评估
2.预测准确度
可以通过离线实验计算;将离线数据分为训练集和测试集,通过在训练集上建立预测模型,计算预测行为和测试集上实际行为的重合度作为预测准确度。
-
评分预测,预测用户对物品评分的行为;如均方根误差(RMSE)和平均绝对误差(MAE)
$$
RMSE=\frac{\sqrt{\sum(r_{ui}-\hat{r}_{ui})}}{|T|}
$$
字母表示:用户u、物品i、r_{ui}为实际评分、\hat{r}_{ui}为预测评分、|T|为数据长度
$$
MAE=\frac{\sum|r_{ui}-\hat{r}_{ui}|}{|T|}
$$
方法 | 特点 |
---|---|
RMSE | 加大了对预测不准的用户物品评分的惩罚,对系统评测更加严格 |
MAE | 评分系统基于整数,对预测结果取整会降低MAE的误差 |
-
TopN推荐
给用户一个个性化的推荐列表称为TopN推荐。
度量方法:准确率(precision)/召回率(recall)度量
召回率的定义:
$$
Recall=\frac{\sum|R(u) \cap T(u)|}{\sum{|T(u)|}}
$$
准确率的定义:
$$
Precision=\frac{\sum|R(u)\cap T(u)|}{\sum|R(u)|}
$$
R(u)根据用户在训练集上的行为给用户作出的推荐列表,T(u)是用户在测试集上的行为列表。
为了全面评测TopN推荐的准确率和召回率,一般选取不同的推荐列表长度N,计算出一组准确率/召回率,然后画出准确率/召回率曲线。
3.覆盖率
覆盖率描述一个推荐系统对物品长尾的发掘能力。最简单的定义为能够推荐出来的物品占总物品集合的比例。
长尾物品:单个产品需求和销售都很小的那一部分
覆盖率:
通过研究物品在推荐列表中出现的次数的分布描述推荐系统挖掘长尾的能力。如果分布比较平,覆盖率较高,分布陡峭,覆盖率低。
定义覆盖率的指标:
-
信息熵,其中p(i)表示物品的流行度除以所有物品流行度之和)
-
基尼系数:,其中表示物品流行度从小到大的物品列表中第j个物品。
基尼系数的作用:评估推荐系统是否具有"马太效应",如从初始用户行为中计算出的物品流行度的基尼系数为G1,推荐列表中的物品的流行度的基尼系数为G2,如果G2>G1,说明推荐系统具有马太效应。
4.多样性
推荐列表能够覆盖用户不同的兴趣领域,即推荐的多样性。多样性描述推荐列表中物品两两之间的不相关性。对样性与相似性对应。用户u的推荐列表R(u)的多样性定义为:
s(i,j)为相似度,R(u)根据用户在训练集上的行为给用户作出的推荐列表
整体多样性可以用所有用户推荐列表多样性的平均值来衡量
5.新颖性
指推荐给用户未听说过的物品。评价新颖度的最简单方法:利用推荐结果的平均流行度,越不热门的物品可能让用户觉得新颖。
6.惊喜度
和用户历史上喜欢的物品不相似,但用户觉得满意
7.信任度
-
度量信任度的方式:问卷调查
-
提高信任度的方法:
-
-
增加推荐系统的透明度
-
-
-
考虑用户的社交网络信息,利用用户好友信息做推荐
-
8. 实时性
-
实时地更新推荐列表来满足用户新的行为变化(使用推荐列表的变化速率进行评测)
-
需要能够将新加入系统的物品推荐给用户(考验处理物品的冷启动能力)
9.健壮性
也称为鲁棒性,衡量推荐系统抗击作弊的能力。评测采用模拟攻击
总结:
离线实验的优化目标:最大化预测准确度,使得覆盖率>A,多样性>B,新颖性>C.