基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（二）代码实现

最新推荐文章于 2024-08-10 00:07:27 发布

关山难越_谁悲失路之人

最新推荐文章于 2024-08-10 00:07:27 发布

阅读量2k

点赞数

分类专栏： Linux scala spark Hadoop

本文链接：https://blog.csdn.net/shuangshaung_/article/details/53862602

版权

本文是基于Spark MLlib的电影推荐系统实现的第二部分，主要介绍如何通过设置避免过多INFO输出，导入推荐系统所需库，加载并解析数据到RDD Rating对象，以及使用ALS算法进行训练，包括参数如维度(rank)、迭代次数和正则化参数的选择。后续将详细阐述预测过程及结果整合。

摘要由CSDN通过智能技术生成

上接基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统（一）

1. 设置不打印一堆INFO信息（减少打印量保证Shell页面清晰干净）

      sc.setLogLevel("WARN")

2. 导入相关recommendation包中相关类，加载数据，并解析到RDD【Rating】对象

①导入相关recommendation包，其中recommendation._的含义是导入recommendation包中全部类
scala> import org.apache.spark.mllib.recommendation._
import org.apache.spark.mllib.recommendation._

②加载数据；匹配模式；user product rating的类型是Int Int Double，需要转换；
scala> val data = sc.textFile("/root/cccc.txt").map(_.split(",") match {case Array (user,product,rating) => Rating (user.toInt,product.toInt,rating.toDouble)})
data: org.apache.spark.rdd.RDD[org.apache.spark.mllib.recommendation.Rating] = MapPartitionsRDD[29] at map at <console>:24
或者：val data = sc.textFile("/root/cccc.txt").map(_.split(",");Rating(f(0).toInt,f(1).toInt,f(2).toDouble) //这句运行有错。
/**如果不用模式匹配 还可以用if判断（本身case就是if的另一种形式）**/

【附加：.first可以查看数据的第一行；.count可以统计数据的行数

scala> data.first
res24: org.apache.spark.mllib.recommendation.Rating = Rating(1,1,5.0)

scala> data.count
res25: Long = 16

二：设置参

最低0.47元/天解锁文章

关山难越_谁悲失路之人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录