数据如下
1001 1,2,3
1002 1,2
1003 1,3
1004 1,4
1005 4
说明:第一个字段代表一个用户, 后面的代表这个用户一下买了这些商品,比如 1001买了1,2,3这三个产品, 因此,我们认为这3个产品两两是有相关性的, 通过这些日志,想得到任意两产品的相关性是多少,这样的话,可以根据相关性大的进行商品推荐。
直接上代码:
def Relat(sc: SparkContext) {
val rd1 = sc.textFile("D:\\work\\data\\t3.txt",2)
val k2 = rd1.flatMap { x =>
val c = x.split(" ")(1).split(",").toArray
for (v <- c; w <- c; if (v != w)) yield ((v, w) -> 1)
}
val k3=k2.reduceByKey(_+_).sortBy(x => (x._1,x._2),true)
k3.collect().foreach { println(_) }
}
代码说明:1,把这个用户所选的商品构造成一个笛卡尔积,排除相同的, 比如1,2,3最后出现的是12,13,23,21,31,32 ,把这产生的都放一个map里,key就是这两商品元素(x,y),value为1, 后用flatMap变为相应的单元,最后用reduceByKey便可得到相关性为多少,再排个序,就出来了。
结果为
((1,2),2)
((1,3),2)
((1,4),1)
((2,1),2)
((2,3),1)
((3,1),2)
((3,2),1)
((4,1),1)
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/134308/viewspace-2094871/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/134308/viewspace-2094871/