大数据项目实战：Spark基于内容的推荐算法（商品离线相似度计算）

最新推荐文章于 2022-09-20 20:38:36 发布

VIP文章善良的弹壳

最新推荐文章于 2022-09-20 20:38:36 发布

阅读量2.8k

点赞数 1

分类专栏：大数据文章标签： spark python 大数据推荐系统

本文链接：https://blog.csdn.net/weixin_37736146/article/details/96705138

版权

基于内容的推荐算法（CB）：

读取Hbase倒排表中数据20w+索引数据，以token（关键词）为rowkey，每个itemID为column，score为value
通过spark进行基于内容的离线相似度计算，得到每个物品的相关推荐物品列表，按score排序后取TOP20，（itemA–>itemB:score,itemC:score）
总用时12min
在这里插入图片描述
得到605219个item的相关推荐物品列表：

部分item推荐结果展示：

import json
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import math


def func(i_ts):
    """
    对token的value做归一化
    :param i_ts:

最低0.47元/天解锁文章

优惠劵

善良的弹壳

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
大数据项目实战：Spark基于内容的推荐算法（商品离线相似度计算）

基于内容的推荐算法（CB）：读取Hbase倒排表中数据20w+索引数据，以token（关键词）为rowkey，每个itemID为column，score为value通过spark进行基于内容的离线相似度计算，得到每个物品的相关推荐物品列表，按score排序后取TOP20，（itemA–>itemB:score,itemC:score）总用时12min得到605219个item的相关...
复制链接

扫一扫