sparkpython效率低_为什么我的简单Spark应用程序工作得这么慢？

最新推荐文章于 2022-08-25 16:55:23 发布

weixin_39873177

最新推荐文章于 2022-08-25 16:55:23 发布

阅读量306

点赞数

文章标签： sparkpython效率低

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39873177/article/details/112921309

版权

我试图count使用Spark API对mllib的FP growth生成的频繁项集。我的火花是1.5.1版。以下是我的代码：#!/usr/bin/python

from pyspark.mllib.fpm import FPGrowth

from pyspark import SparkContext,SparkConf

from pyspark import HiveContext

import os

os.environ['PYSPARK_PYTHON']='/usr/bin/python'

appName = "FP_growth"

sc = SparkContext()

sql_context = HiveContext(sc)

def read_spu(prod):#prod_code):

sql = """

select

t.orderno_nosplit,

t.prod_code,

t.item_code,

sum(t.item_qty) as item_qty

from ioc_fdm.fdm_dwr_ioc_fcs_pk_spu_item_f_chain t

where t.prod_code='%s'

group by t.prod_code, t.orderno_nosplit, t.item_code """%prod

spu_result = sql_context.sql(sql)

return spu_result.cache()

if __name__ == '__main__':

spu=read_spu('6727780')

conf=0.7

trans=spu.rdd.repartition(100).map(lambda x: (x[0],x[2])).groupByKey().mapValues(list).values().cache()

model = FPGrowth.train(trans, 0.01, 100)

freq_count = model.freqItemsets().count()

print 'freq_count:',freq_count

sc.stop()

输入数据是从Hadoop读取的，数据不是很大，只有大约20000行。但是，脚本在.count阶段的工作非常缓慢。我不知道为什么。从性能上看，似乎是因为数据倾斜。但是输出的数据不是很大(每个任务只有大约100KB)。在

集群有8个节点，320个核心，总内存为1.56t(不仅仅是一个用户)。我的spark提交脚本是spark-submit --master yarn-cluster --executor-memory 30g --num-executors 20 --executor-cores 5 FP_growth.py

附件是运行时性能的屏幕图像：

weixin_39873177

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkpython效率低_为什么我的简单Spark应用程序工作得这么慢？

我试图count使用Spark API对mllib的FP growth生成的频繁项集。我的火花是1.5.1版。以下是我的代码：#!/usr/bin/pythonfrom pyspark.mllib.fpm import FPGrowthfrom pyspark import SparkContext,SparkConffrom pyspark import HiveContextimport os...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。