【运行环境】
JDK: 1.8.0_301_b09
Python: 3.8
Spark: 3.3.0
【问题描述】
今晚安装好Spark 3.3.0 for Hadoop 3.2 or higher后,使用pyspark时一直报错
org.apache.spark.SparkException: Python worker failed to connect back.
网上查了一下,有的说要降低Spark版本,可是我实在不觉得降低版本是个好的解决方案,于是继续查询,终于让我找到一个解决方案,亲测有效
添加环境变量即可解决
PYSPARK_PYTHON=python
原答案中还提到需要设置
PYSPARK_DRIVER_PYTHON=jupyter
一并添加上,完美~