spark scala Apriori

最新推荐文章于 2019-03-05 15:27:52 发布

胖大海瘦西湖

最新推荐文章于 2019-03-05 15:27:52 发布

阅读量1.9k

点赞数

分类专栏： spark scala 数据结构与算法数据挖掘文章标签： scala spark 大数据算法数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/o1101574955/article/details/52238498

版权

数据结构与算法同时被 3 个专栏收录

43 篇文章 0 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

val mydata = Array(Array(1,3,4,5),Array(2,3,5),Array(1,2,3,4,5),Array(2,3,4,5))
val pamydata = sc.parallelize(mydata)
val C1 = pamydata.flatMap(_.toSet).distinct().collect().map(Set(_))
val D = mydata.map(_.toSet)
val D_bc = sc.broadcast(D)
val length = mydata.length
var limit = 0.70
def f1(a:Set[Int],B:Array[Set[Int]],length:Int,limit:Double) = {if(B.filter(b => a.subsetOf(b)).size/length.toDouble >= limit)(a,B.filter(b => a.subsetOf(b)).size/length.toDouble)}
var suppdata = sc.parallelize(C1).map(f1(_,D_bc.value,4,limit)).filter(_.!=(())).collect()
var L = Array[Array[Set[Int]]]()
val L1 = suppdata.map(_ match{case a:Tuple2[_,_] => a._1 match{ case b:Set[_] => b.asInstanceOf[Set[Int]]}})
L = L :+ L1
var k=2
while(L(k-2).length>0){
var CK = Array[Set[Int]]()
for((var1,index) <- L(k-2).zipWithIndex;var2 <- L(k-2).drop(index+1) if var1.take(k-2).equals(var2.take(k-2))){CK= CK :+ (var1|var2)}
val suppdata_temp = sc.parallelize(CK).map(f1(_,D_bc.value,4,limit)).filter(_.!=(())).collect()
suppdata = suppdata :+ suppdata_temp
L = L :+ suppdata_temp.map(_ match{case a:Tuple2[_,_] => a._1 match{ case b:Set[_] => b.asInstanceOf[Set[Int]]}})
k += 1
}
L = L.filter(_.nonEmpty)
L
suppdata

这里只写了挖掘频繁项集，发现关联规则的代码可以参考 pyspark的版本来写

胖大海瘦西湖

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark scala Apriori

val mydata = Array(Array(1,3,4,5),Array(2,3,5),Array(1,2,3,4,5),Array(2,3,4,5))val pamydata = sc.parallelize(mydata)val C1 = pamydata.flatMap(_.toSet).distinct().collect().map(Set(_))val D = mydata
复制链接

扫一扫

专栏目录

胖大海瘦西湖 CSDN认证博客专家 CSDN认证企业博客

码龄13年

109: 原创

13万+: 周排名

72万+: 总排名

55万+: 访问

: 等级

5292: 积分

61: 粉丝

111: 获赞

50: 评论

225: 收藏

私信

关注

热门文章

分类专栏

c 23篇
操作系统 1篇
Linux 6篇
数据结构与算法 43篇
python 33篇
scrapy 2篇
网络 2篇
django 2篇
数据挖掘 3篇
神经网络 1篇
spark 8篇
scala 20篇
c++ 34篇
Objective-c 1篇
ios开发 1篇
随笔 1篇
java 7篇
mac相关 1篇
asm 1篇
GeneratorAdapter 1篇
字节码 1篇
guava 2篇
concurrent 2篇
AbstractFuture 1篇
学习 1篇
开源框架 1篇

最新评论

如果学习开源框架
CSDN-Ada助手: 非常感谢博主分享关于学习开源框架的经验和想法。我觉得如果你能写一篇关于如何在实际项目中应用开源框架的博客，会对其他用户非常有帮助。具体来说，你可以分享你在实际项目中使用开源框架的经验和技巧，比如如何选择合适的框架、如何快速上手、如何解决遇到的问题等等。相信会有更多读者从中受益。期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
图论算法小结
-枫林晚-: 还有函数里面有Graph类型的数据，但是没有定义呀。
图论算法小结
-枫林晚-: 前面那个next neighbor函数感觉不太对呀，Arcnode结构体哪里有名为data的变量
Django1.8 python3 验证码　ImageFont.truetype　IOError:cannot openresource
wayne8088: 牛逼感谢
matplotlib subplots 设置总图的标题
月光水岸V: 你好，为什么在后面加了x,y的设置之后，figure的标题在fig.savefig保存下来的图片上反而没有了标题

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。