大数据项目实战：Spark基于协同的推荐算法（商品离线相似度计算）

最新推荐文章于 2022-04-26 10:59:33 发布

善良的弹壳

最新推荐文章于 2022-04-26 10:59:33 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： spark python 大数据推荐系统

本文链接：https://blog.csdn.net/weixin_37736146/article/details/96714271

版权

该博客介绍了如何使用Spark进行大数据处理，针对32w+索引数据，通过协同过滤算法计算商品之间的相似度，生成每个商品的Top20推荐列表。整个过程在1.5分钟内完成，展示了高效的大数据处理能力。

摘要由CSDN通过智能技术生成

基于协同的推荐算法（CF）：

读取HDFS中32w+索引数据，通过spark进行基于协同的离线相似度计算，得到每个商品的相关推荐商品品列表，按score排序后取TOP20，（itemA–>itemB:score,itemC:score）

32w+用户行为数据：
在这里插入图片描述
总用时1.5min

结果数据量：

推荐结果部分展示：

from pyspark import SparkContext, SparkConf
import math


def scoreProcess(rdd):
    uis = rdd.split('\001')
    user = uis[0]
    item = uis[1]
    total_time = uis[2]
    finish_time = uis[3]
    s

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

善良的弹壳

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark-ML-01-小试spark分析离线商品信息

阿里Darker

05-10

1839

任务一个在线商品购买记录数据集，约40M,格式如下：Jack,iphone cover,9,99 Jack,iphone cover,9,99 Jack,iphone cover,9,99 Jack,iphone cover,9,99完成统计： 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.util.Collections; import java.

大数据实战电商推荐系统（3）-基于隐语义模型的离线推荐模块

qq_42754919的博客

08-09

551

文章目录1.创建文件+配置文件2. 模型+算法2.1 隐语义模型2.2 商品相似度矩阵2.3 算法3. 模型调参数据获取和处理详见上一篇文章：https://blog.csdn.net/qq_42754919/article/details/119493103 这一节主要介绍基于隐语义模型的协同过滤推荐算法，根据用户评价商品计算用户和商品之间的关系。最后生成用户推荐商品列表和商品相似度列表。 1.创建文件+配置文件 <?xml version="1.0" encoding="UTF-8"?>

参与评论您还未登录，请先登录后发表或查看评论

Spark商品关联推荐

conglan7945的博客

05-06

299

数据如下 1001 1,2,3 1002 1,2 1003 1,3 1004 1,4 1005 4 说明：第一个字段代表一个用户，后...

Spark SQL（八）之基于物品的相似度公式

茅坤宝骏氹的博客

05-05

602

一、基于物品的余弦相似度公式一其中，i、j表示任意两个物品，N(i)表示喜欢物品i的用户数，N(j)表示喜欢物品j的用户数。代码： public class ItemCFApp { public static void main(String[]args){ SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("ItemCFApp"); sparkConf.setM

PYTHON_SPARK 基于物品协通过滤推荐算法离线化实现

chenyang2015的博客

02-11

271

PYTHON_SPARK 基于物品协通过滤推荐算法离线化实现本文主要内容算法介绍 spark介绍算法实现的基本流程代码分部详解完整代码 1. 算法介绍 Wij表示标号i.j物品的相似度。 U(i,j)表示同时对i,j有评分的用户集合 2 . spark介绍 spark算子大致分为两类 1 Transformation 变换/转换算子，这种算子并不提交作业，完成作业过程中间转换处理...

大数据项目实战：Spark基于内容的推荐算法（商品离线相似度计算）

weixin_37736146的博客

07-21

2907

基于Apache Spark的Netflix电影的离线与实时推荐系统.zip

09-16

2. **相似度计算**：使用协同过滤算法计算用户之间的相似度或物品之间的相似度，这通常基于用户评分矩阵的奇异值分解（SVD）或余弦相似性。 3. **推荐生成**：根据用户相似度，为每个用户推荐未曾观看但与他们已喜欢...

电商大数据项目-推荐系统实战之推荐算法（三）

weixin_33910385的博客

12-04

6565

基于Spark机器学习的电商推荐系统设计与实现.zip

最新发布

12-24

推荐系统常用算法_推荐系统产品与算法概述

weixin_39558391的博客

11-22

1749

作者丨gongyouliu微信号丨liuq4360本文约1.2W字，阅读需60min作者在《推荐系统的工程实现》(点击蓝字可回顾)这篇文章的第五部分“推荐系统范式”中讲到工业级推荐系统有非个性化范式、完全个性化范式、群组个性化范式、标的物关联标的物范式、笛卡尔积范式等 5种常用的推荐范式。本文会按照这5大范式来讲解常用的推荐算法，但不会深入讲解算法的实现原理，只是概述算法的实现思路，后面的系列文...

Spark推荐系统实现

weixin_40072708的博客

10-29

1422

代码实现如下: 使用电影数据集进行训练模型 package mllib.Collaborativefiltering import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession import org.apache.spark.mllib.recommendation.{ALS, Rating...

B2C网站商品详情页如何设计相关商品推荐？

weixin_30867015的博客

06-08

301

淘宝详情页分发推荐算法总结：用户即时兴趣强化

淘系技术

07-21

7547

本文介绍淘宝详情页全网分发场景的机制。商品详情页是手淘内流量最大的模块之一，它加载了数十亿级商品的详细信息，是用户整个决策过程必不可少的一环。这个区块不仅要承接用户对当前商品充分感知的诉求...

协同过滤itembase计算Spark实现(二)

博客内容皆为原创

09-04

3379

博主前期有写过协同过滤协同过滤itembase增量计算Spark实现(一)，其中已经较为基础的演示了基于欧拉距离求解相似度的过程，由于都是在一个JOB里，随着数据量的增长会出现计算耗时过长、OOM等现象，后期博主在推荐系统架构优化方面发现上述五个步骤在诸如看了还看，买了还买，相关搜索词，搜索最终购买等推荐模块存在着大量的相似，这些步骤的复用性太强，所以就开始考虑对算法模块按其计算步骤进行拆分，拆分之

spark1.6学习（四)——计算pv和uv的例子

archer的技术故事

11-29

2217

本文主要介绍如何通过spark进行pv和uv的计算。一般我们经常会计算pv和uv，那么我们计算pv和uv的时候是不是性能最优的呢？好，我们开始看例子：首先看一下数据： {"flag":"sendTemplateMessage","actionType":"success","from":"sendTemplateMessage","openId":&q

92 推荐算法——相似性推荐和协同过滤

THE ORDER

04-26

3275

qq_42754919的博客

08-13

1562

文章目录1.TD-IDF介绍2. 算法数据获取和处理以及环境的配置详见上一篇文章： https://blog.csdn.net/qq_42754919/article/details/119606604?spm=1001.2014.3001.5501 每个商品都有标签，标签可以大致的概括商品的特征，但是并不是所有的标签对商品的特征影响性大。因此本文首先使用TD-IDF算法计算每个标签对商品的权重，将最终计算出的特征值转化为稀疏向量，利用余弦相似度计算两个商品之间的相似程度，用于推荐相似的商品。 1.TD-

大数据实战：Hadoop+Spark+Flink+离线与实时计算详解

大数据实战启航班深入探讨了大数据领域中的关键技术和工具，涵盖了Hadoop、Spark、Flink以及离线计算和实时计算。这个课程旨在帮助学习者理解大数据的核心概念，并掌握如何在实际环境中进行高效的数据处理和分析。 ...