Spark商品关联推荐

最新推荐文章于 2024-08-02 20:10:36 发布

conglan7945

最新推荐文章于 2024-08-02 20:10:36 发布

阅读量302

点赞数

文章标签：大数据 scala java

数据如下

1001 1,2,3

1002 1,2

1003 1,3

1004 1,4

1005 4

说明：第一个字段代表一个用户，后面的代表这个用户一下买了这些商品，比如 1001买了1，2，3这三个产品，因此，我们认为这3个产品两两是有相关性的，通过这些日志，想得到任意两产品的相关性是多少，这样的话，可以根据相关性大的进行商品推荐。

直接上代码：

def Relat(sc: SparkContext) {

val rd1 = sc.textFile("D:\\work\\data\\t3.txt",2)

       val k2 = rd1.flatMap { x =>
      val c = x.split(" ")(1).split(",").toArray
      for (v <- c; w <- c; if (v != w)) yield ((v, w) -> 1)
    }

val k3=k2.reduceByKey(_+_).sortBy(x => (x._1,x._2),true)

k3.collect().foreach { println(_) }

}

代码说明：1,把这个用户所选的商品构造成一个笛卡尔积，排除相同的，比如1，2，3最后出现的是12，13，23，21，31，32 ，把这产生的都放一个map里，key就是这两商品元素（x,y），value为1，后用flatMap变为相应的单元，最后用reduceByKey便可得到相关性为多少，再排个序，就出来了。