推荐系统简介_召回nearline-CSDN博客

本文链接：https://blog.csdn.net/cymy001/article/details/89384205

推荐系统存在的前提
（1）信息过载；（2）用户需求不明确

推荐系统的目标
连接用户和物品，发现长尾商品；留住用户和内容生产者，实现商业目标

推荐系统的应用领域
新闻资讯推荐；短视频推荐；商品推荐

推荐系统的评估
用户——满足需求
内容提供方——获取长尾流量，获得互动和认可
网站——留住用户，实现商业目标

评估指标

准确性；满意度；覆盖率；多样性；新颖性；惊喜度；信任度；实时性；鲁棒性；可扩展性；商业目标；用户留存
【A】准确性
评分预测
TopN
【B】覆盖度
覆盖率
信息熵
基尼系数
分层流量占比
【C】多样性、新颖性、惊喜性
（1）tradeoff：Exploitation&Exploration问题
（2）解决方法：Multi-armed bandit problem(MAB)
（3）算法-原理：
Epsilon-Greedy
Upper Confidence Bound
Thompson Sampling
（4）Bandit算法-应用：
[a]兴趣探索：兴趣就是老虎机(衣服/鞋等100个类目就是100个老虎机)，给用户推老虎机收益最高的(收益最高指的是点击购买等可量化的目标)。
[b]冷启动探索：新用户来了，不知道喜欢哪个类目；类似不知道哪个老虎机收益最高。
[c]LinUCB：UCB是只和item本身相关、和user不相关，以下两个UCB变种考虑了user的信息。由于探索是个性化的回报率，所以加入一些user和item的特征做收益率预估，再做探索。
[d]COFIBA：Bandit结合CF
（5）EE实践：
兴趣扩展：相似话题、搭配推荐
人群算法：userCF、相关性不是那么强的用户聚类扩展
Bandit算法
Graph Walking：在图上的随机算法
平衡个性化推荐和热门推荐比例
随机丢弃用户行为历史
随机扰动模型参数

评估方法

工业实践：“离线评估”与“在线评估”结合，定期“问卷调查”
（1）问卷调查
（2）离线评估
用户看过，跟线上效果有偏差
只能评很少指标，如准确率
速度快，不伤害用户体验
（3）在线评估
A/B test：支持样本少，不同策略实验(不同实验参数)不独立，分流方式不灵活。
多层重叠实验框架：把实验参数划分到N个子集，每个子集关联到一个实验层里，每个请求会被N个实验处理；同一个实验参数不能出现在多个层里。
《Overlapping Experiment Infrastructure:More, Better, Faster Experimentation》Google@KDD2010