目录
推荐系统概念及产生背景
个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。
推荐系统定义:
没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统。
信息过载 & 用户需求不明确
- 分类⽬录(1990s):覆盖少量热门⽹站。典型应用:Hao123 Yahoo
- 搜索引擎(2000s):通过搜索词明确需求。典型应用:Google Baidu
- 推荐系统(2010s):不需要⽤户提供明确的需求,通过分析⽤ 户的历史⾏为给⽤户的兴趣进⾏建模,从⽽主动给⽤户推荐能 够满⾜他们兴趣和需求的信息。
推荐系统 V.S. 搜索引擎
总结:推荐概念
信息过滤系统 解决信息过载 用户需求不明确的问题,利用一定规则将物品排序,展示给需求不明确的用户。
推荐与搜索区别:
推荐个性比较强,用户被动的接受,希望提供持续的服务。
搜索个性化弱。用户主动搜索,快速满足用户需求。
推荐系统的工作原理及作用
-
推荐系统的工作原理
- 社会化推荐 向朋友咨询, 社会化推荐, 让好友给自己推荐物品
- 基于内容的推荐 打开搜索引擎, 输入自己喜欢的演员的名字, 然后看看返回结果中还有什么电影是自己没看过的
- 基于流行度的推荐 查看票房排行榜,
- 基于协同过滤的推荐 找到和自己历史兴趣相似的用户, 看看他们最近在看什么电影
-
推荐系统的作用
- 高效连接用户和物品
- 提高用户停留时间和用户活跃程度
- 有效的帮助产品实现其商业价值
-
推荐系统的应用场景 feed流 信息流
推荐系统和Web项目的区别
- 通过信息过滤实现目标提升 V.S. 稳定的信息流通系统
- web项目: 处理复杂业务逻辑,处理高并发,为用户构建一个稳定的信息流通服务
- 推荐系统: 追求指标增长, 留存率/阅读时间/GMV (Gross Merchandise Volume电商网站成交金额)/视频网站VV (Video View)
- 确定 V.S. 不确定思维
- web项目: 对结果有确定预期
- 推荐系统: 结果是概率问题
推荐系统设计
1 推荐系统要素
- UI 和 UE(前端界面)
- 数据 (Lambda架构)
- 业务知识
- 算法
2 推荐系统架构
-
推荐系统整体架构
大数据Lambda架构
-
Lambda架构是由实时大数据处理框架Storm的作者Nathan Marz提出的一个实时大数据处理框架。
-
Lambda架构的将离线计算和实时计算整合,设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。
-
分层架构
- 批处理层(离线)
- 数据不可变, 可进行任何计算, 可水平扩展
- 高延迟 几分钟~几小时(计算量和数据量不同)
- 日志收集: Flume
- 分布式存储: Hadoop hdfs
- 分布式计算: Hadoop、Spark
- 视图存储数据库
- nosql(HBase/Cassandra)
- Redis/memcache
- MySQL
- 实时处理层
- 流式处理, 持续计算
- 存储和分析某个窗口期内的数据(一段时间的热销排行,实时热搜等)
- 实时数据收集 flume & kafka
- 实时数据分析 spark streaming/storm/flink
- 服务层
- 支持随机读
- 需要在非常短的时间内返回结果
- 读取批处理层和实时处理层结果并对其归并
- 批处理层(离线)
Lambda架构介绍
离线计算和实时计算共同提供服务的问题。
离线计算优缺点:优点:能够处理的数据量可以比较大 比如pb级别,缺点:速度比较慢,分钟级别的延迟。
实时计算优缺点:优点:响应快,ms级别。缺点:处理的数据小一点。
离线计算框架:hadoop,spark core,spark sql。
实时计算框架:spark streaing storm flink。
消息中间件:flume 日志采集系统 kafka。
存储相关:hbase,nosql数据库 hive sql操作hdfs数据。