【大数据笔记】-2-推荐系统初识

二刷子

已于 2023-10-12 22:28:37 修改

阅读量82

点赞数

分类专栏：死磕大数据文章标签：大数据推荐算法

于 2023-09-25 23:07:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/konglj123/article/details/133148573

版权

死磕大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

初识推荐系统

1、推荐算法

基于人口统计的推荐

基于内容的推荐

根据物品的元数据

基于协同过滤的推荐

pass

吐槽一下：店小二要学会察言观色！

2、推荐系统能做什么

where when how what who

在合适的场景，合适的时间，通过合适的渠道，把合适的内容，推荐给合适的人。

吐槽一下：让客官购买合适的商品！

3、推荐系统作用

通过

1、提升用户忠诚度、用户粘性

增加

2、提升销售额、长尾销售

最终

3、提升毛利

吐槽一下：客官请留步，客官请刷卡！

4、推荐系统任务

1、评分预测（Rating Prediction）

2、Top-N 推荐（Top-N Recommendation）

吐槽一下：预测出客官喜欢的内容、商品，赚钱赚钱赚钱！！！

5、什么是好的推荐系统

交互和设计角度 40%

数据的角度 30%

领域知识的角度 20%

模型的角度 10%

吐槽一下：这个店小二会来事！

6、什么时候需要推荐系统

信息过载

留存了大量的用户、物品信息，并且无法做完整展现。

足够反馈

用户对物品的交互信息，浏览、点击量等。

搜索无法解决的

搜索引擎 vs 推荐系统

吐槽一下：老板，这活儿没法干了。

7、数据-显示反馈

赞👍 踩👎

问题：样本少、评分不靠谱

8、数据-隐式反馈

浏览、点击、购买、收藏

吐槽一下：客官干了啥，老板一清二楚！

选择参考

订单、待付款订单、心愿清单加购、搜索、收藏、评分、分享、悬停浏览、快速预览

优先级：高到低

数据量：少到多

吐槽一下：比客官更了解他自己！

深入理解推荐系统

推荐系统：解决信息量过载的问题，从海量的数据中挖掘有价值的数据信息。

个性化推荐：根据用户的兴趣特点和行为，向用户推荐用户感兴趣的信息。

9、体系架构

推荐规则

召回：筛选出用户感兴趣的大量商品

排序：对商品列表打分排序

规则：通常是过滤规则，去重、业务过滤（比如明确不喜欢的）

技术处理

Offline 层：海量数据离线处理，如MapReduce、Spark

Nearline层：实时数据流式处理，如Storm、SparkStreaming

Online 层：运算逻辑在线计算，如：在线引擎

问题

1、用户通过搜索，推荐系统如何从上亿商品秒级反馈展示对应搜索数据？

通过推荐系统

DAU:每天活跃的用户，MAU:每月活跃的用户

10、处理架构

11、模型

f(uid, itemid,exp_time) = score

训练过程

f(uid,itemid,exp_time) = a * uid + b * itemid + c*expitme + d

参数：a b c d 是未知的，需要被不断的训练出来

阈值

真实的数据带入模型，计算阈值。

>= 0.5 lable=1

< 0.5 lable=0

模型调参、超参

待补充

假设模型训练好了：

f(uid, itemid, exp_time) = 0.45 * u1 + 0.234 * i1 + 0.453 *e1 + 0.121

12、目的

在合适的时间合适的场景给合适的用户推荐合适的商品。

协同过滤认识

召回：从海量物品中筛选出用户可能感兴趣的物品。粗粒度的筛选。

排序：从用户召回的结果中对物品重新排序，细粒度的筛选。

归一化：解决标准不一致产生的偏差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【大数据笔记】-2-推荐系统初识

推荐系统基础知识、理解笔记。
复制链接

扫一扫

专栏目录

二刷子 CSDN认证博客专家 CSDN认证企业博客

码龄15年

3: 原创

79万+: 周排名

31万+: 总排名

2907: 访问

: 等级

39: 积分

2: 粉丝

1: 获赞

5: 评论

2: 收藏

私信

关注

热门文章

分类专栏

死磕大数据 2篇

最新评论

开发谷歌插件时，如何获取某个站点的cookie数据，并发起http请求
kmaomo: sendmessage 不能发送网络请求
【大数据笔记】-1-环境搭建
CSDN-Ada助手: 非常棒的博文！非常感谢您分享关于大数据环境搭建的经验和技巧。希望您能继续写下去，分享更多关于大数据的知识和经验。除了环境搭建，您还可以深入探讨数据处理、分析和可视化的技巧，这些都是大数据领域非常重要的扩展知识和技能。期待您的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【大数据笔记】-2-推荐系统初识
CSDN-Ada助手: 恭喜博主发布了关于推荐系统的第三篇博客，内容扎实，观点独特。不过在下认为，可以考虑在下一篇博客中加入一些实际案例或者应用场景的分析，让读者更好地理解推荐系统的应用。希望博主能够继续保持创作的热情，为我们带来更多有价值的内容。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
开发谷歌插件时，如何获取某个站点的cookie数据，并发起http请求
m0_75055877: 请求http接口的时候，报错连接不到后台服务，这个咋解决
开发谷歌插件时，如何获取某个站点的cookie数据，并发起http请求
CSDN-Ada助手: 恭喜你写下了第一篇博客！标题也非常有吸引力。建议你可以考虑在下一篇博客中进一步介绍如何处理cookie数据，以及如何在插件中实现http请求的功能。期待你的下一篇精彩文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。