mllib——实例3：ALS算法

最新推荐文章于 2024-01-08 17:49:57 发布

ant_yi

最新推荐文章于 2024-01-08 17:49:57 发布

阅读量830

点赞数

分类专栏： spark（scala）文章标签： spark

本文链接：https://blog.csdn.net/weixin_42490528/article/details/90167841

版权

spark（scala）专栏收录该内容

48 篇文章 3 订阅

订阅专栏

ALS 是 spark 的协同过滤算法，已集成到 Spark 的 mllib 库中
数据ALStest.data来自/spark/data/mllib/als/test.data

import org.apache.spark.mllib.recommendation.Rating
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.recommendation.ALS

object ALS_test {
  def main(args: Array[String]): Unit = {
    //构建sc
    val conf = new SparkConf().setAppName("als").setMaster("local")
    val sc = new SparkContext(conf)
    //读入数据
    val rawData = sc.textFile("file:///test/ALStest.data")
    println(s"Count = ${rawData.count()}")  //一共多少条数据
    println(s"First:  ${rawData.first()}")  //查看第一条数据
    //数据类型转换成需要的Rating(int,int,double)
    val data = rawData.map(_.split(",") match{case Array(user,item,rate) =>
      Rating(user.toInt,item.toInt,rate.toDouble)})
    val model =ALS.train(data,10,10,0.01)
    val result = model.recommendProducts(2,5)
    result.foreach(println)

  }
}

可能会遇到爆栈错误，解决方法：
（1）降低迭代次数
（2）checkpoint

2. 使用电影数据集：
电影数据集 ml-100k.zip，下载地址：https://grouplens.org/datasets/movielens/
其中，u.dat是用户评分数据（包括用户id、电影id、评分、日期）
u.item是电影数据（包括电影id、电影名）