协同过滤itembase增量计算Spark实现(一)

最新推荐文章于 2022-09-28 21:13:16 发布

蚂蚁大哥大

最新推荐文章于 2022-09-28 21:13:16 发布

阅读量6.1k

点赞数

分类专栏：协同过滤 spark itembase 大数据文章标签：协同过滤 spark itembase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pztyz314151/article/details/51982313

版权

本文详细介绍了在Spark上实现协同过滤itembase增量计算的过程，包括Controller、recDataClean、recNorms、recMatrix、recSimilarity和union等步骤。文中提到的数据统计、参数配置以及Spark集群信息对理解计算过程至关重要。通过对各阶段的Spark DAG图描述，展示了如何处理增量数据并更新共生矩阵、相似度矩阵，最后讨论了union操作的关键点。

摘要由CSDN通过智能技术生成

协同过滤itembase增量计算Spark实现

=========================================================================================

尊重版权，转载请注明地址

=========================================================================================

直接调用spark RDD实现协同过滤算法

Controller

1. 数据统计

user count:=========>8239237

itemCode count:=====>7421567

spark result distinct count ======>5826484

2. 运行子任务

倒叙

3. Spark集群信息

Spark初始化采用硬资源分配，计算过程中动态进行资源分配。

协同过滤为大数据依赖型，需大内存，cpu要求一般

4. 参数配置

sparkConf.set("spark.executor.memory","7G");

sparkConf.set("spark.executor.cores","1");

sparkConf.set("spark.executor.heartbeatInterval","20s");

sparkConf.set("spark.kryoserializer.buffer.max","256m");

sparkConf.set("spark.speculation","true");

sparkConf.set("spark.worker.timeout","500");

sparkConf.set("spark.core.connection.ack.wait.timeout","600");

sparkConf.set("spark.cores.max", "4");

5. 输出文件命名规则

最低0.47元/天解锁文章

蚂蚁大哥大

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
协同过滤itembase增量计算Spark实现(一)

协同过滤itembase增量计算Spark实现Controller1. 数据统计user counts:=========>8239237itemCode count:=====>7421567 spark result distinct nums ======>5826484 2. 运行子任务倒叙 3. Spark集群
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。