推荐系统评估与冷启动

最新推荐文章于 2021-07-18 23:35:59 发布

蜜桃上的小叮当

最新推荐文章于 2021-07-18 23:35:59 发布

阅读量223

点赞数

分类专栏：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_31854967/article/details/118501046

版权

推荐系统专栏收录该内容

25 篇文章 4 订阅

订阅专栏

本文探讨了推荐系统的评估方法，包括准确性测量（如RMSE、召回率）、多样性与新颖性，以及冷启动策略。重点介绍了显式与隐式反馈的区别，并针对探索与利用（EE）问题进行了深入分析。此外，文章还涵盖了离线、在线评估手段及推荐系统冷启动的解决方案。

摘要由CSDN通过智能技术生成

文章目录

推荐系统评估

好的推荐系统可以实现用户、内容提供方、服务提供方三者共赢。如下图所示：
显式反馈与隐式反馈
显式反馈的主要表现为对于书籍电影的评分、是否喜欢此推荐。用户的准确性高、数量少、获取成本较高；隐式反馈主要表现为对于视频播放、点击、下载，物品的购买、加入购物车。用户的准确性低、数量多、获取成本较低。而推荐系统更看重隐式反馈。
常用的评估指标

准确性：
评分预测：RMSE、MAE算法
TopN推荐：召回率、精准率
A/B 测试：对比不同的算法在线上运行对关键指标的影响，金丝雀发布、baseline。
覆盖度：这里我们会讨论信息熵的概念，通过熵的浑浊程度来进行推荐，熵值越高说明效果越好。
多样性：推荐列表中两两物品的不相似性。
新颖性：未曾关注的类别、作者。
惊喜性：历史不相似（惊）但很满意（喜）。
实现惊喜性往往会牺牲准确率；使⽤历史⾏为预测⽤户对某个物品的喜爱程度；系统过度强调实时性。

推荐系统探索与利用问题

Exploitation(开发利用)：选择现在可能最佳的⽅案。
Exploration(探测搜索)：选择现在不确定的⼀些⽅案，但未来可能会有⾼收益的⽅案。
在做两类决策的过程中，我们要不断更新对所有决策的不确定性的认知，优化长期的⽬标，在两者之间得到权衡。
EE问题实践：兴趣扩展: 相似话题, 搭配推荐；人群算法: userCF 用户聚类；平衡个性化推荐和热门推荐比例；随机丢弃用户行为历史，随机扰动模型参数。
EE可能带来的问题：

探索伤害用户体验, 可能导致用户流失
探索带来的长期收益(留存率)评估周期长, KPI压力大
如何平衡实时兴趣和长期兴趣
如何平衡短期产品体验和长期系统生态
如何平衡大众口味和小众需求

总体来说EE的问题是相互矛盾的做法。

推荐系统评估方法

问卷调查:：成本高，容易被用户忽视，不太能完美实现。
离线评估：缺点：只能在用户看到过的候选集上做评估, 且跟线上真实效果存在偏差、只能评估少数指标；优点：速度快, 不损害用户体验。
在线评估：金丝雀发布 & A/B测试。
综合实践：离线评估和在线评估结合, 定期做问卷调查。

推荐系统冷启动

推荐系统冷启动概念

⽤户冷启动：如何为新⽤户做个性化推荐。
物品冷启动：如何将新物品推荐给⽤户（协同过滤）。
系统冷启动：⽤户冷启动+物品冷启动。
推荐系统依赖历史数据，没有历史数据⽆法预测⽤户偏好。这时我们该怎么办呢？

用户冷启动：

尽可能多的收集用户信息、构建用户画像（TAG）
根据用户的标签可以做人群聚类，用以有用户的行为做推荐。
更多地使用当前的流行度推荐。

物品冷启动：

物品打标签（TAG），构建物品画像。
基于内容的推荐。

系统冷启动

如果应用缺少用户行为数据>>>基于内容的推荐。
随着用户行为积累的越来越多>>>协同过滤。
基于内容推荐+协同过滤。

蜜桃上的小叮当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

蜜桃上的小叮当 CSDN认证博客专家 CSDN认证企业博客

码龄9年

203: 原创

5万+: 周排名

9万+: 总排名

24万+: 访问

: 等级

3071: 积分

154: 粉丝

266: 获赞

59: 评论

1160: 收藏

私信

关注

热门文章

分类专栏

推荐算法 11篇
推荐系统 25篇
Spark 24篇
Hadoop 11篇
OpenCV 15篇
Python科学计算 17篇
K8S 15篇
Zabbix 1篇
Redis 4篇
Docker 17篇
Tomcat 2篇
Apache 8篇
Nginx 5篇
服务器架构 21篇
Shell 16篇
C语言编程 1篇
Linux 9篇
MySQL 8篇
Linux网络服务 1篇
计算机网络 8篇
密码学 1篇

最新评论

推荐系统经典模型YouTubeDNN代码
qq_35842763: 求数据数据可以共享下么
Shell脚本正则表达式之Sed用法介绍+操作（包括sed高阶用法）
phyxp001: sed 'c nmsl' tmp.hosts #将所有行替换nmsl
MySQL数据库MHA高可用群集
蜜桃上的小叮当: sinat_31854967 蜜桃上的小叮当作者 1 秒前回复点赞说实话这个东西好多年了，我手上也没有了，现在基本上都是用的云数据库，我写的这些基本上要被淘汰了，这都是之前实习的时候公司idc机房里这样装的。
MySQL数据库MHA高可用群集
蜜桃上的小叮当: 说实话这个东西好多年了，我手上也没有了，现在基本上都是用的云数据库，我写的这些基本上要被淘汰了，这都是之前实习的时候公司idc机房里这样装的。
MySQL数据库MHA高可用群集
沐宇丶蝶舞辰空: 所以mha的包在哪里弄？偌大一个互联网，要么是用github网址下载，常人根本访问不到，要么就是收费

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。