推荐系统的评价指标总结

          评价一个推荐系统的好坏的重要性不用多少。本文的总结非常的全面,相信读者通过阅读本文以及本文参考的文献可以对推荐系统的评价指标有比较全面的掌握。 

          对推荐系统的研究一个重要的环节是如何评价一个推荐算法的好坏。关于推荐系统评价的研究很多,文献[1,2,3]在不同程度对评价方法进行了总结。评价方法分为离线评估,用户调查,在线评估。由于用户调查和在线评估代价要求高,目前大多数的研究采用的是离线测试。其中文献[3]总结了离线评价中用到的指标,包括准确度指标、基于排序加权的指标、覆盖率、多样性和新颖性等。本文的研究工作采用了几种离线评估指标。将其归纳为准确性指标和非准确性指标。下面分别给予简单介绍。

为了方便描述评价指标,下表对后面会用到的符号进行简单说明。

                             

1 准确性指标

    准确性指标是推荐系统中最重要的指标。最常使用的准确性指标包括准确率和召回率。

    

     1)准确率[3]。推荐列表中用户喜欢的物品所占的比例。针对单个用户u的推荐准确率:

                                                                                                                    

            整个系统的准确率为:

                                                                                                                  

   2)召回率[3]。测试集中有多少用户喜欢的物品出现在推荐列表中。针对单个用户u的推荐召回率:

                                     

    整个系统的召回率为:

                                      

 3)F1-Measure。F-Measure又称为F-Score,是IR(信息检索)领域的常用的一个评价标准,计算公式为:

                                      

   

   其中β是参数,P是 精确率(Precision),R是 召回率 (Recall)
    当参数β=1时,就是最常见的F1-Measure了:
                                                                                                       
                                      

  以上的准确性指标是只从整个推荐列表的推荐用户是否喜欢这种二值情况考虑的。除此之外,针对评分(比如0-5分制)的评估主要还有:

  •    RMSE (均方根误差);
                 

      其中Ωtest为测试集;yij为用户i对物品j的实际评分,y^ij为预测评分。

  • MAE (平分绝对误差):
                           

  • Normalized Lpnorm:
                     
        显然,RMSE,MAE是  Normalized  L norm的特例。            

准确性指标局限性:

  •   不适合评估排序性能。关于排序的性能,推荐大家参考我的另一篇博客:   http://blog.csdn.net/allenalex/article/details/78161915
  • 离线的准确率的提高并不意味着实际线上系统效果的提高。

2 非准确性指标

  推荐系统中,除了推荐准确性外,还有其他一些重要的指标。包括推荐的多样性、新颖性、惊喜度和覆盖率等等。本文将这些指标统称为非准确性指标。其中非准确性指标又可以分为用户级非准确性指标和系统级非准确性指标。

  2.1.用户级非准确性指标

    1)个体多样性。用户的推荐列表列内的所有物品的平均相似度 [2]:
                                                                      
     其中similarity(i,j)可以本博主的另一篇博文《推荐系统中的相似度计算方法总结》介绍的相似度计算方法来计算。求系统中所有用户的推荐列表列内的所有物品的平均相似度的平均值得到整体(推荐列表)列内相似度:

                                                                   

              IntraSimilarity值越大,说明用户的推荐列表内的物品之间总体平均相似度越高,也就是系统整体的个体多样性越低。

   2)新颖性[4]。评估新颖性最简单的方法是计算推荐列表中物品的平均流行度:

                                                                

   整个系统的新颖性为:

                                                          

  

  2.2.系统级的非准确性指标

   1)整体多样性 [5]。采用推荐列表间的相似度,也就是用户的推荐列表间的重叠度来定义整体多样性。
                                                         
    

   2)覆盖率[6]。覆盖率测量的是推荐系统推荐给所有用户的物品数占总物品数的比例。

                                                   

   【参考文献】

      [1] Sarwar B, G. Karypis, JKonstan,et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th International WWW Conference.  New York:ACM,2001,285-295.

      [2] Zanker M, Felfernig A, Friedrich G. Recommender systems: an introduction[M]. Cambridge:Cambridge University Press, 2011,124-142.

      [3] 朱郁筱, 吕琳媛.推荐系统评价指标综述.电子科技大学学报, 2012, 41(2): 163-175.

      [4] L.-T. Weng,Y. Xu, Y. Li et al. Improving recommendation novelty based on topic taxonomy. In: IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Washington: ACM, 2007, 115–118.   

      [5]C.Ziegler, S.M. McNee, J. A. Konstan et al. Improving recommendation lists through topic diversification. In: Proceedings of the 14th International Conference on World Wide Web. Chiba: ACM, 2005, 22-32.

      [6] Ge M, Delgado-Battenfeld,Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity. In:RecSys (2010): the 2010 ACM conference on Recommender systems. Barcelona:ACM,2010,257-260.

  • 18
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值