推荐系统实践
第一章:好的推荐系统
推荐系统实验方法:
离线实验
用户调查
在线实验:AB测试,将用户分成不同的组,然后不同组里面用不同算法,最后根据后台日志数据库,分析得出哪些算法比较好
推荐系统的测评指标
1、 用户满意度(用户调查,在线实验)
2、 预测准确度(离线)
打分系统:
TOPN 推荐:
准确率和召回率
有的时候,为了全面评测TopN推荐的准确率和召回率,一般会选取不同的推荐列表长度N,
计算出一组准确率/召回率,然后画出准确率/召回率曲线(precision/recall curve)。
3、 覆盖率
消除马太效应
4、 多样性
5、
第2章 利用用户行为数据
皮尔森系数:
pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。
当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。
基于用户的协同过滤,jacad距离改进: