最简单的推荐系统,起到抛砖引玉的作用,各位看官见谅!使用的是MovieLens里面的ml-100k的范例数据集。
path="hdfs://localhost:9000/user/fantastic_liar/"
rawUserData=sc.textFile(path+"data/u.data")
rawUserData.count()
100000
# 用户id,项目id,评价,日期时间
rawUserData.first()
'196\t242\t3\t881250949'
#导入Rating模块
from pyspark.mllib.recommendation import Rating
rawRatings=rawUserData.map(lambda line:line.split("\t")[:3])
rawRatings.take(5)
[['196', '242', '3'],
['186', '302', '3'],
['22', '377', '1'],
['244', '51', '2'],
['166', '346', '1']]
#ALS训练数据格式是RatingRDD数据类型,Rating定义如下(Ratin