使用不带hadoop的spark包,在成功启动pyspark前需要在spark的配置文件conf/spark-env.sh里指定hadoop。格式是spark要求好的。
现在以hadoop这个命令已经在环境变量中存在的情况为例,spark-env.sh配置文件里需要增加这么一句:
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
参考官方文档:
https://spark.apache.org/docs/latest/hadoop-provided.html