Spark mlib FPGrowth&nb…

最新推荐文章于 2022-05-29 15:46:53 发布

leexurui

最新推荐文章于 2022-05-29 15:46:53 发布

阅读量521

点赞数

分类专栏：并行计算与分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leexurui/article/details/52352087

版权

并行计算与分布式计算专栏收录该内容

16 篇文章 0 订阅

订阅专栏

MLlib’s FP-growth implementation takes the following (hyper-)parameters:

minSupport: the minimum support for an itemset to be identified as frequent. For example, if an item appears 3 out of 5 transactions, it has a support of 3/5=0.6.
numPartitions: the number of partitions used to distribute the work.

spark mlib 的官方 FPGrowth 运行出错。

这是序列输出可能引起的错误，spark采用的kryo序列化方式比JavaSerializer方式更快，但是在1.4版本的spark上会产生错误，故解决方案是，要么在spark-defaults.conf中替换，要么只运行中直接替换，

所以加上下面蓝色这句好就好了

val conf = new SparkConf().setAppName("SimpleFPGrowth") .set("spark.serializer", "org.apache.spark.serializer.JavaSerializer")

import org.apache.log4j.{Level, Logger}

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.fpm._

import org.apache.spark.rdd.RDD

// $example off$

object FPGrowth {

def main(args: Array[String]) {

// 屏蔽不必要的日志显示在终端上

Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

// 设置运行环境

val conf = new SparkConf().setAppName("SimpleFPGrowth").set("spark.serializer", "org.apache.spark.serializer.JavaSerializer")

val sc = new SparkContext(conf)

// $example on$

val data = sc.textFile("xrli/sample_fpgrowth.txt")

val transactions: RDD[Array[String]] = data.map(s => s.trim.split(' '))

val fpg = new FPGrowth()

.setMinSupport(0.5)

.setNumPartitions(10)

val model = fpg.run(transactions)

model.freqItemsets.collect().foreach { itemset =>

println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)

}

val minConfidence = 0.8

model.generateAssociationRules (minConfidence).collect().foreach { rule =>

println(

rule.antecedent.mkString("[", ",", "]")

+ " => " + rule.consequent .mkString("[", ",", "]")

+ ", " + rule.confidence)

}

// $example off$

}

}

// scalastyle:on println}

//sample_fpgrowth.txt

//r z h k p

//z y x w v u t s

//s x o n r

//x z y m t s q e

//z

//x z y r q t p

数据集中每一行就是一项，以z为例，z在5项中都出现了，，所以支持度为5/6， itemset.freq打印了频度5。

model.generateAssociationRules (minConfidence).collect().foreach

这是生成规则，如果数据集很大的话，推荐不要 collect(). ，这样可以提升运行速度。

rule.antecedent 前提

rule.consequent结果

Spark <wbr>mlib <wbr>FPGrowth <wbr>运行错误解决方案

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

leexurui CSDN认证博客专家 CSDN认证企业博客

码龄13年

76: 原创

18万+: 周排名

76万+: 总排名

15万+: 访问

: 等级

1629: 积分

26: 粉丝

27: 获赞

7: 评论

113: 收藏

私信

关注

热门文章

分类专栏

最新评论

argc和argv的定义和用法
魈魈哦-: 终于看懂了！
Python的Nltk包安装使用
qq_39729494: 是不是Temp啊？
Python的Nltk包安装使用
qq_39729494: 大佬，我找不到/local/share，local中share的地方
scikitlearn/theano多分类问题详解
OCC1994: 您好我也是按照DBN那个例子做的训练也是想要得到最后具体的预测值按照您那个预测函数我跑了一下出现这样的错误：Input variables of a Theano function should be contained in a list, even when there is a single input. 我查了一下源码，貌似是指DBN_model.logLayer.y_pred不是一个数组或者元组，请问您出现过这样的问题吗？谢谢！
评分卡模型剖析之一（woe、I…
w7bmz:

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。