推荐本质上是求相似度,重点是如何度量相似性。推荐的常用算法是协同过滤算法,该算法基于用户行为的数据而设计的推荐算法。M个人对N个商品产生行为,从而构成联系,对M个人进行聚类是基于用户(M1和M2相似,则已知M1购买P1,可将P1商品推荐给M2),对N个商品进行聚类是基于商品(P1和P2商品相似,则已知M1购买P1,可将P2商品推荐给M1)。
相似度/距离计算方法有以下几种:
(1)闵可夫斯基距离
(2) 欧式距离
(3)杰卡德相似系数(Jaccard)
(4)余弦相似度
(5)Pearson相似系数
(6)相对熵(K-L距离)
Jaccard相似度的由来
R(u)是给用户u作出的推荐列表,而T(u)是用户在测试集上真正的行为列表
准确率/召回率
Jaccard系数
评价推荐系统的首要离线指标
通过将单个用户的准确率(或召回率)做累加,即得到整个推荐系统的准确率(或召回率),该离线指标常常用于比较各个推荐系统之间的优劣。