spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理...

最新推荐文章于 2022-07-06 16:35:54 发布

VIP文章 weixin_39832448

最新推荐文章于 2022-07-06 16:35:54 发布

阅读量434

点赞数

文章标签： spark调用python

现象

如果我们安装了python3.7版本来运行spark，并且用到了RDD的take函数，就会报错：RuntimeError: generator raised StopIteration

我们可以编写一个python脚本test.py来进行测试，用spark-submit命令提交： spark-submit test.pyfrom pyspark.sql import SparkSession

spark = SparkSession\

.builder\

.appName("PythonWordCount")\

.getOrCreate()

sc = spark.sparkContext

print(sc.parallelize([1, 2]).take(1))

当然也可以直接在pyspark的交互式shell中执行sc.parallelize([1, 2]).take(1)

执行就会碰到上面说的错误。

原因分析

这个错误是由于Python3.7合入了一个不兼容性修改PEP-0479引起的。

Spark社区已经修复并合入了Spark的2.3.2和2.4版本，具体参考Spark对应的JIRA SPARK-24739。

解决方法

MRS目前使用的版本为Spark 2.2.1，尚未修复。目前可以通过两种方法规避：（推荐）使用Python 3.6，3.5；

参考开源合入，修改提交任务节点的对应python脚本，并打包。具体见下一节。

参考开源合入，修改不兼容的python代码

打开客户端节点，修改/opt/client/Spark/spark/python/pyspark/rdd.py中的takeUpToNumLeft方法。de

最低0.47元/天解锁文章

weixin_39832448

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理...

现象如果我们安装了python3.7版本来运行spark，并且用到了RDD的take函数，就会报错：RuntimeError:generatorraisedStopIteration我们可以编写一个python脚本test.py来进行测试，用spark-submit命令提交： spark-submit test.pyfrompyspark.sqlimportSparkSessionsp...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。