推荐系统评估与冷启动

本文探讨了推荐系统的评估方法,包括准确性测量(如RMSE、召回率)、多样性与新颖性,以及冷启动策略。重点介绍了显式与隐式反馈的区别,并针对探索与利用(EE)问题进行了深入分析。此外,文章还涵盖了离线、在线评估手段及推荐系统冷启动的解决方案。
摘要由CSDN通过智能技术生成

推荐系统评估

  • 好的推荐系统可以实现用户、内容提供方、服务提供方三者共赢。如下图所示:
    在这里插入图片描述

  • 显式反馈与隐式反馈
    显式反馈的主要表现为对于书籍电影的评分、是否喜欢此推荐。用户的准确性高、数量少、获取成本较高;隐式反馈主要表现为对于视频播放、点击、下载,物品的购买、加入购物车。用户的准确性低、数量多、获取成本较低。而推荐系统更看重隐式反馈。

  • 常用的评估指标

  1. 准确性:
    评分预测:RMSE、MAE算法
    TopN推荐:召回率、精准率
    A/B 测试:对比不同的算法 在线上运行对关键指标的影响,金丝雀发布、baseline。
  2. 覆盖度:这里我们会讨论信息熵的概念,通过熵的浑浊程度来进行推荐,熵值越高说明效果越好。
  3. 多样性:推荐列表中两两物品的不相似性。
  4. 新颖性:未曾关注的类别、作者。
  5. 惊喜性:历史不相似(惊)但很满意(喜)。
    实现惊喜性往往会牺牲准确率;使⽤历史⾏为预测⽤户对某个物品的喜爱程度;系统过度强调实时性。

推荐系统探索与利用问题

  • Exploitation(开发 利用):选择现在可能最佳的⽅案。
  • Exploration(探测 搜索):选择现在不确定的⼀些⽅案,但未来可能会有⾼收益的⽅案。
  • 在做两类决策的过程中,我们要不断更新对所有决策的不确定性的认知,优化长期的⽬标,在两者之间得到权衡。
  • EE问题实践:兴趣扩展: 相似话题, 搭配推荐;人群算法: userCF 用户聚类;平衡个性化推荐和热门推荐比例;随机丢弃用户行为历史,随机扰动模型参数。
  • EE可能带来的问题:
  1. 探索伤害用户体验, 可能导致用户流失
  2. 探索带来的长期收益(留存率)评估周期长, KPI压力大
  3. 如何平衡实时兴趣和长期兴趣
  4. 如何平衡短期产品体验和长期系统生态
  5. 如何平衡大众口味和小众需求

总体来说EE的问题是相互矛盾的做法。

推荐系统评估方法

  1. 问卷调查::成本高,容易被用户忽视,不太能完美实现。
  2. 离线评估:缺点:只能在用户看到过的候选集上做评估, 且跟线上真实效果存在偏差、只能评估少数指标;优点:速度快, 不损害用户体验。
  3. 在线评估:金丝雀发布 & A/B测试 。
  4. 综合实践:离线评估和在线评估结合, 定期做问卷调查。

推荐系统冷启动

推荐系统冷启动概念

  • ⽤户冷启动:如何为新⽤户做个性化推荐。
  • 物品冷启动:如何将新物品推荐给⽤户(协同过滤)。
  • 系统冷启动:⽤户冷启动+物品冷启动。
  • 推荐系统依赖历史数据,没有历史数据⽆法预测⽤户偏好。这时我们该怎么办呢?
  1. 用户冷启动:
  • 尽可能多的收集用户信息、构建用户画像(TAG)
  • 根据用户的标签可以做人群聚类,用以有用户的行为做推荐。
  • 更多地使用当前的流行度推荐。
  1. 物品冷启动:
  • 物品打标签(TAG),构建物品画像。
  • 基于内容的推荐。
  1. 系统冷启动
  • 如果应用缺少用户行为数据>>>基于内容的推荐。
  • 随着用户行为积累的越来越多>>>协同过滤。
  • 基于内容推荐+协同过滤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值