基于协同的推荐算法(CF):
读取HDFS中32w+索引数据,通过spark进行基于协同的离线相似度计算,得到每个商品的相关推荐商品品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)
32w+用户行为数据:
总用时1.5min
结果数据量:
推荐结果部分展示:
from pyspark import SparkContext, SparkConf
import math
def scoreProcess(rdd):
uis = rdd.split('\001')
user = uis[0]
item = uis[1]
total_time = uis[2]
finish_time = uis[3]
s