spark FPGrowth笔记

最新推荐文章于 2021-08-06 10:08:30 发布

数道难

最新推荐文章于 2021-08-06 10:08:30 发布

阅读量377

点赞数

分类专栏： spark 机器学习

本文链接：https://blog.csdn.net/u013303361/article/details/106557073

版权

spark 同时被 2 个专栏收录

42 篇文章 1 订阅

订阅专栏

机器学习

18 篇文章 0 订阅

订阅专栏

先上代码：

import org.apache.spark.ml.fpm.FPGrowth
import spark.implicits._
    val df=spark.sparkContext.makeRDD(Seq((1,Seq(123,456,789)),(2,Seq(123,456)),(3,Seq(456,789)),(4,Seq(666)),(5,Seq(555,888,666)) ) ).toDF("id","uids")

val fp=new FPGrowth().setItemsCol("ids")
  .setMinConfidence(0.1)
  .setMinSupport(0.001) // 频繁项（热门商品）在总体的最小（出现）比例
  .setNumPartitions(3)

val fpModel=fp.fit(df)
fpModel.freqItemsets.show(false)
fpModel.associationRules.filter("size(antecedent)=1 and antecedent[0]=123456").show

问题1：树深度无限制问题

这频繁项子集深度不加限制，感觉不合理，，，好比词袋模型词袋任意长了；若不在前面手动限制频繁项最大长度，我的笔记本直接运行不出来，我的笔记本必须限制到30以内size(ids)<30。

问题2：参数含义setMinSupport(0.001) // 频繁项（热门商品）在总体的最小（出现）比例

追溯从fit到genericFit就发现minCount= math.ceil(minSupport * count)，再到genFreqItems发现解释为“ minCount minimum count for frequent itemsets”

override def fit(dataset: Dataset[_]): FPGrowthModel = {
transformSchema(dataset.schema, logging = true)
genericFit(dataset)
}

private def genericFit[T: ClassTag](dataset: Dataset[_]): FPGrowthModel = instrumented { instr =>
...
val parentModel = mllibFP.run(items)

def run[Item: ClassTag](data: RDD[Array[Item]]):
val count = data.count()
val minCount = math.ceil(minSupport * count).toLong

/**
* Generates frequent items by filtering the input data using minimal support level.
* @param minCount minimum count for frequent itemsets
* @param partitioner partitioner used to distribute items
* @return array of frequent patterns and their frequencies ordered by their frequencies
*/
private def genFreqItems[Item: ClassTag]( data: RDD[Array[Item]], minCount: Long, partitioner: Partitioner)

问题3：与协同过滤比较

1 userCF推荐的更丰富，FPGrowth关联推荐由于被截取了N的树深度，推荐的也少了挺多；
2 两种算法交集较大，基本 userCF的结果涵盖了FPGrowth

数道难

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark FPGrowth笔记

问题1：树深度无限制问题这频繁项子集深度不加限制，感觉不合理，，，好比词袋模型词袋任意长了；若不在前面手动限制频繁项最大长度，我的笔记本直接运行不出来，我的笔记本必须限制到30以内size(ids)<30。问题2：参数含义setMinSupport(0.001) // 频繁项（热门商品）在总体的最小（出现）比例追溯从fit到genericFit就发现minCount= math.ceil(minSupport * count)，再到genFreqItems发现解释为“m..
复制链接

扫一扫