ALS 是 spark 的协同过滤算法,已集成到 Spark 的 mllib 库中
数据ALStest.data来自/spark/data/mllib/als/test.data
import org.apache.spark.mllib.recommendation.Rating
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.recommendation.ALS
object ALS_test {
def main(args: Array[String]): Unit = {
//构建sc
val conf = new SparkConf().setAppName("als").setMaster("local")
val sc = new SparkContext(conf)
//读入数据
val rawData = sc.textFile("file:///test/ALStest.data")
println(s"Count = ${rawData.count()}") //一共多少条数据
println(s"First: ${rawData.first()}") //查看第一条数据
//数据类型转换成需要的Rating(int,int,double)
val data = rawData.map(_.split(",") match{case Array(user,item,rate) =>
Rating(user.toInt,item.toInt,rate.toDouble)})
val model =ALS.train(data,10,10,0.01)
val result = model.recommendProducts(2,5)
result.foreach(println)
}
}
可能会遇到爆栈错误,解决方法:
(1)降低迭代次数
(2)checkpoint
2. 使用电影数据集:
电影数据集 ml-100k.zip,下载地址:https://grouplens.org/datasets/movielens/
其中,u.dat是用户评分数据(包括用户id、电影id、评分、日期)
u.item是电影数据(包括电影id、电影名)