基于spark-streaming实时推荐系统（一）

蚂蚁大哥大

于 2016-11-03 20:48:37 发布

阅读量1.3w

点赞数 3

分类专栏：大数据日志采集协同过滤 spark scala 文章标签：大数据 spark 推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pztyz314151/article/details/53025728

版权

本文介绍了如何利用Spark-Streaming构建实时推荐系统，系统边界依赖于实时日志采集系统，数据通过Kafka流转，使用UpdateStateByKey进行业务处理。文章强调实时推荐仍需结合历史数据的离线推荐系统以确保准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

随着互联网的飞速发展，如何能够让用户在广袤的互联网中获取到他所想要的，这时候人们有了搜索引擎。搜索引擎好比一个仓库，它需要事先储藏大量的资源，你需要什么都可以从中获取得到。这种被动索取的方式无形之中也注定了搜索引擎在某个范围内只能一家独大。科技改变着人们的生活，随着大数据时代的到来，传统被动等候来获取的方式由于其需要的前期投入较大，准确性往往也不能满足用户的真正需求，在此背景之下，推荐引擎遍广泛的被大家所接收，它的出现改变了系统被动的一面，它就好似跟踪导弹，只要你出现在互联网之中，就可以时刻为你推荐。

前期已经写了推荐系统离线计算的博文，主要是根据CF寻找相似，这种离线的推荐在计算周期内推荐结果不发生改变。个性化推荐则需要用户发生行为而实时为其推送推荐结果。

下面简单介绍下spark-streaming实时推荐系统搭建

系统边界

这里写图片描述
依托于一套可以实时采集到用户行为的日志采集系统，详情可以参见用户实时行为数据采集将数据实时推送至kafka中，spark-streaming实时读取kafka中数据，进行特定的业务规则处理。这里会用到UpdateStateByKey方法，有兴趣的朋友可以去查阅相关资料了解此方法的原理及实现。

数据流

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。