python写spark的效率问题_为什么我的 spark比纯 Python跑得慢?性能比较

给新手点 spark。我尝试使用spark在我的 dataframe上执行一些pandas操作,但奇怪的是它比纯python慢(即在python中使用pandas包)。我是这样做的:

1)

train_df.filter(train_df.gender == '-unknown-').count()

恢复结果大约需要30秒。但是使用python大约需要1秒钟。

2) spark中:

sqlContext.sql("SELECT gender, count(*) FROM train GROUP BY gender").show()

同样,Spark需要30秒,python需要1秒。

我的Spark比纯Python慢得多的几个可能原因:

1)我的 DataSet 大约有220000条记录,24MB,这还不足以显示Spark的扩展优势。

2)我的Spark在 local运行,我应该在类似AmazonEC的环境中运行它。

3) local运行是可以的,但我的计算能力并没有降低。这是一个8 Gig RAM 2015 MacBook。

4)因为我在运行python,所以spark很慢。如果我使用scala,会更好。(con论点:我听说很多人都在使用pyspark,这很好。)

其中哪一个最有可能是原因,还是最可信的 explain?我很想听听 spark专家的意见。非常感谢!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值