记用户A的训练样本是 train_dataA (用户A的历史行为数据)
用户B的训练样本是 train_dataB (用户B的历史行为数据)
用户A的真实购买物品集合是 set_A (ground_truth)
用户B的真实购买物品集合是 set_B (ground_truth)
推荐算法给A推荐的记为 set_fake_A
推荐算法给B推荐的记为 set_fake_B
平均召回率定义为 [ ( set_A∩set_fake_A / len(set_A)) + ( set_B∩set_fake_B / len(set_B)) ] /2
标准召回率是 (set_A∩set_fake_A + set_B∩set_fake_B)/( len(set_A)+len(set_B))
len(set_A)代表 set_A的长度(集合元素个数)
举个例子:
这里的推荐是TopN推荐,N取2,也就是一次给用户推荐两个。
用户A实际购买了物品 {a,b,c,d,e} 算法给用户A推荐物品{a,b} 这样命中的就是a,b 命中了2个
用户B实际购买了物品 {e,f,g} 算法给用户B推荐物品{d,e} 这样命中的就只有e 命中了1个
平均召回率=[( 2/5 ) + ( 1/3 )]/2 = 0.367
标准召回率=[(2+1)/(5+3)]=0.375
平均召回率可以更好的描述推荐算法的性能,这是因为平均召回率考虑到了召回一个元素的难度。
举例来说
用户A实际购买10个物品,推荐算法的推荐结果命中一个
用户B实际只购买2个物品,推荐算法的推荐结果也是只命中一个
那么平均召回率=(1/10+1/2)/2=0.3
标准召回率=(1+1)/(10+2)=0.167 这里推荐算法命中的结果都是1,然后直接相加了起来,这里显然不合理,因为2个中1个是比较难的,10个中1个是较为简单的,所以这两个1应该区别开来。
平均召回率就更好的衡量了推荐算法的性能。