基于Flink商品实时推荐系统项目【大数据及算法】

介绍:
基于Flink实现的商品实时推荐系统。flink统计商品热度,放入redis缓存,分析日志信息,将画像标签和实时记录放入Hbase。在用户发起推荐请求后,根据用户画像重排序热度榜,并结合协同过滤和标签两个推荐模块为新生成的榜单的每一个产品添加关联产品,最后返回新的用户列表。

1. 系统架构 v2.0

1.1 系统架构 v2.0



1.2模块说明

a.在日志数据模块(flink-2-hbase)中,又主要分为6个Flink任务:

用户-产品浏览历史 -> 实现基于协同过滤的推荐逻辑

通过Flink去记录用户浏览过这个类目下的哪些产品,为后面的基于Item的协同过滤做准备 实时的记录用户的评分到Hbase中,为后续离线处理做准备.

数据存储在Hbase的p_history表

用户-兴趣 -> 实现基于上下文的推荐逻辑

根据用户对同一个产品的操作计算兴趣度,计算规则通过操作间隔时间(如购物 - 浏览 < 100s)则判定为一次兴趣事件 通过Flink的ValueState实现,如果用户的操作Action=3(收藏),则清除这个产品的state,如果超过100s没有出现Action=3的事件,也会清除这个state

数据存储在Hbase的u_interest表

用户画像计算 -> 实现基于标签的推荐逻辑

v1.0按照三个维度去计算用户画像,分别是用户的颜色兴趣,用户的产地兴趣,和用户的风格兴趣.根据日志不断的修改用户画像的数据,记录在Hbase中.

数据存储在Hbase的user表

产品画像记录 -> 实现基于标签的推荐逻辑

用两个维度记录产品画像,一个是喜爱该产品的年龄段,另一个是性别

数据存储在Hbase的prod表

事实热度榜 -> 实现基于热度的推荐逻辑

通过Flink时间窗口机制,统计当前时间的实时热度,并将数据缓存在Redis中.

通过Flink的窗口机制计算实时热度,使用ListState保存一次热度榜

数据存储在redis中,按照时间戳存储list

日志导入

从Kafka接收的数据直接导入进Hbase事实表,保存完整的日志log,日志中包含了用户Id,用户操作的产品id,操作时间,行为(如购买,点击,推荐等).

数据按时间窗口统计数据大屏需要的数据,返回前段展示

数据存储在Hbase的con表

b. web模块
前台用户界面
该页面返回给用户推荐的产品list

后台监控页面
该页面返回给管理员指标监控

2.推荐引擎逻辑说明

2.1 基于热度的推荐逻辑
现阶段推荐逻辑图



&#8203;根据用户特征,重新排序热度榜,之后根据两种推荐算法计算得到的产品相关度评分,为每个热度榜中的产品推荐几个关联的产品

2.2 基于产品画像的产品相似度计算方法
基于产品画像的推荐逻辑依赖于产品画像和热度榜两个维度,产品画像有三个特征,包含color/country/style三个角度,通过计算用户对该类目产品的评分来过滤热度榜上的产品




在已经有产品画像的基础上,计算item与item之间的关联系,通过余弦相似度来计算两两之间的评分,最后在已有物品选中的情况下推荐关联性更高的产品.

相似度ABC
A10.70.2
B0.710.6
C0.20.61


2.3 基于协同过滤的产品相似度计算方法
根据产品用户表(Hbase) 去计算公式得到相似度评分:


3. 前台推荐页面
当前推荐结果分为3列,分别是热度榜推荐,协同过滤推荐和产品画像推荐


4. 后台数据大屏
&#8203; 在后台上显示推荐系统的实时数据,数据来自其他Flink计算模块的结果.目前包含热度榜和1小时日志接入量两个指标. 真实数据位置在resource/database.sql


5. 部署说明

以下的部署均使用Docker,对于搭建一套复杂的系统,使用docker来部署各种服务中间件再合适不过了。这里有一套简单的Docker入门系列


详细的部署说明已经写了一篇文章来说明了,按照流程即可运行项目,无需自己搭建任何组件。 文章地址
Hbase部署说明->使用Docker搭建伪分布式Hbase(外置Zookeeper)
Kafka部署说明->使用Docker部署Kafka时的网络应该如何配置

6. Q & A
是否一定要使用Docker来部署环境?
不是的,项目刚开始写的时候都是通过独立的组件来实现功能的。后来为了让大家能够迅速的体验项目,省略搭建过程 才配置了多个Docker环境。所以如果有自己有Kafka 或者 Hbase 的搭建经验,更推荐自搭建的形式,这样更容易解决问题。

部署Docker带来的一系列问题
包括端口号/连接异常等等问题,多数原因是不同的服务器环境带来的,建议首先检查自己的防火墙等基础设施配置是否能够支持各个组件的连接。


代码下载:链接: 

https://pan.baidu.com/s/1YFKkA_PbqXf3ZvjFAYSjcA 提取码: t5tv

地址:
https://github.com/CheckChe0803/flink-recommandSystem-demo

如果你也是大数据、人工智能爱好者,加微信领书100本大数据、人工智能、区块链等精选书籍,还可以加讨论群交流。

----------------------------END----------------------------

领取100本书+1T资源

https://www.aboutyun.com/thread-26480-1-1.html

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总

https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732

About云 VIP会员套餐介绍
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27305

 本公众号精彩文章推荐:

【1】程序员必备的分析解决问题能力:案例分享

【2】Hbase故障处理汇总及评注

【3】技术太多学不过来?教你如何越学越带劲

【4】IT大咖工作十年总结的面试真经

【5】小白与大神存在哪些差距

【6】Logstash收集多数据源数据神器

【7】kafka学习线路指导入门:包括理论、部署、实战知识汇总整理

【8】技术走向管理一些深度思考

展开阅读全文
©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值