推荐系统简介

最新推荐文章于 2024-08-20 21:17:50 发布

Wind_know

最新推荐文章于 2024-08-20 21:17:50 发布

阅读量2.7k

点赞数 1

分类专栏：推荐系统推荐系统介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wind_know/article/details/107370179

版权

推荐系统同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

推荐系统介绍

1 篇文章 0 订阅

订阅专栏

目录

推荐系统概念及产生背景

推荐系统定义：

信息过载 & 用户需求不明确

推荐系统 V.S. 搜索引擎

推荐系统的工作原理及作用

推荐系统的工作原理

推荐系统和Web项目的区别

推荐系统设计

1 推荐系统要素

2 推荐系统架构

大数据Lambda架构

Lambda架构介绍

推荐系统概念及产生背景

个性化推荐(推荐系统)经历了多年的发展，已经成为互联网产品的标配，也是AI成功落地的分支之一，在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。

推荐系统定义：

没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统。

信息过载 & 用户需求不明确

分类⽬录（1990s）：覆盖少量热门⽹站。典型应用：Hao123 Yahoo
搜索引擎（2000s）：通过搜索词明确需求。典型应用：Google Baidu
推荐系统（2010s）：不需要⽤户提供明确的需求，通过分析⽤户的历史⾏为给⽤户的兴趣进⾏建模，从⽽主动给⽤户推荐能够满⾜他们兴趣和需求的信息。

推荐系统 V.S. 搜索引擎

总结:推荐概念

信息过滤系统解决信息过载用户需求不明确的问题，利用一定规则将物品排序，展示给需求不明确的用户。

推荐与搜索区别：

推荐个性比较强，用户被动的接受，希望提供持续的服务。

搜索个性化弱。用户主动搜索，快速满足用户需求。

推荐系统的工作原理及作用

推荐系统的工作原理
- 社会化推荐 向朋友咨询, 社会化推荐, 让好友给自己推荐物品
- 基于内容的推荐 打开搜索引擎, 输入自己喜欢的演员的名字, 然后看看返回结果中还有什么电影是自己没看过的
- 基于流行度的推荐 查看票房排行榜,
- 基于协同过滤的推荐 找到和自己历史兴趣相似的用户, 看看他们最近在看什么电影
推荐系统的作用
- 高效连接用户和物品
- 提高用户停留时间和用户活跃程度
- 有效的帮助产品实现其商业价值
推荐系统的应用场景 feed流信息流

推荐系统和Web项目的区别

通过信息过滤实现目标提升 V.S. 稳定的信息流通系统
- web项目: 处理复杂业务逻辑，处理高并发，为用户构建一个稳定的信息流通服务
- 推荐系统: 追求指标增长, 留存率/阅读时间/GMV (Gross Merchandise Volume电商网站成交金额)/视频网站VV (Video View)
确定 V.S. 不确定思维
- web项目: 对结果有确定预期
- 推荐系统: 结果是概率问题

推荐系统设计

1 推荐系统要素

UI 和 UE(前端界面)
数据 (Lambda架构)
业务知识
算法

2 推荐系统架构

推荐系统整体架构

大数据Lambda架构

Lambda架构是由实时大数据处理框架Storm的作者Nathan Marz提出的一个实时大数据处理框架。
Lambda架构的将离线计算和实时计算整合，设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。
分层架构
- 批处理层(离线)
  - 数据不可变, 可进行任何计算, 可水平扩展
  - 高延迟几分钟~几小时(计算量和数据量不同)
  - 日志收集： Flume
  - 分布式存储： Hadoop hdfs
  - 分布式计算： Hadoop、Spark
  - 视图存储数据库
    - nosql(HBase/Cassandra)
    - Redis/memcache
    - MySQL
- 实时处理层
  - 流式处理, 持续计算
  - 存储和分析某个窗口期内的数据（一段时间的热销排行，实时热搜等）
  - 实时数据收集 flume & kafka
  - 实时数据分析 spark streaming/storm/flink
- 服务层
  - 支持随机读
  - 需要在非常短的时间内返回结果
  - 读取批处理层和实时处理层结果并对其归并

Lambda架构介绍

离线计算和实时计算共同提供服务的问题。

离线计算优缺点：优点：能够处理的数据量可以比较大比如pb级别，缺点：速度比较慢，分钟级别的延迟。

实时计算优缺点：优点：响应快，ms级别。缺点：处理的数据小一点。

离线计算框架：hadoop，spark core,spark sql。

实时计算框架:spark streaing storm flink。

消息中间件：flume 日志采集系统 kafka。

存储相关：hbase,nosql数据库 hive sql操作hdfs数据。

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。